网页采集

IT博客 硬件开发 fpga开发 284

基本信息收藏 - 举报 - 海报

详细介绍

网页采集。网页采集作为政府网站网页在线归档的首要环节，就是利用相关工具，以既定的频率和方式，及时选择值得保存的政府网页内容。网页采集的第一步是要确定采集对象，政府网页归档保存的信息采集对象是域名中含有“gov.cn”的政府网站，为确保政府网页的采集质量，需要对目标网站进行评价，将那些信息规模大、原生性信息多、更新频繁的政府网站选定为采集对象。在确定要采集的目标政府网站之后，还应根据实际需求选择相应的采集方式。

完整性采集和选择性采集是目前比较常用的网络资源采集方式，它们各有优缺点，为了弥补其各自的不足，可以实现两种采集方式的优势互补，采用融合二者优点的混合型采集方式，在对选定的政府网站中所有网页进行完整性采集的同时，通过人工干预的方式对网页内容进行甄别，对其中有证据价值、历史价值、研究价值的重要网页，有选择性地进行深层次的频繁采集，这样既考虑到了政府网页采集面的广度，同时又照顾到了重要网页采集的深度。

而网页的采集与捕获最终还需要依靠相应的网络爬虫工具来实现，目前面向网页存档的爬虫工具比较多，其中Heritrix、HTTrack最为常用，可利用这些工具来有针对性地完成对目标政府网站网页的自动批量在线采集。

没有更多内容。

查看全部