文档介绍:第 1 期
杜义华等: 通用互联网信息采集系统的设计与初步实现
通用互联网信息采集系统的设计与初步实现
杜义华, 及俊川
( 中国科学院计算机网络信息中心管理服务中心, 北京 100864 )
・187・
摘
要: 通过建立网页资源库, 结合 Spider 技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等, 提
供和定制可视化通用性较强的互联网信息采集系统, 能定期自动跟踪相关网站或网页, 进行比较分析、抽取、规
整入库、分类等, 从互联网上获取所需信息。
关键词: 互联网信息采集系统; 网络信息挖掘; Spider
中图法分类号: TP393
文献标识码: A
文章编号: 1001- 3695( 2005) 01- 0187 - 03
Design and Implementation of Information Gather and Process System
DU Yi-hua, JI Jun-chuan
( OA Center, work Information Center, Chinese Academy of Sciences, Beijing 100864, China)
Abstract: By using Web page database technology, Spider searching technology and content parsing technology, providing with
user-defined field config tool and batch get & replace script language editor, a flexible visual Information gather &
process system is developed, which according to user’s setting, can automatic track Web, filter information, gather informa-
tion, extract information, classify information and save to database termly. This paper introduces the design and implementation
of the system in detail.
Key words: Information Gather and Process System; Web Mining; Spider
采集系统根据用户提供的这些信息进行采集。它不是用于互
1
引言
联网上未知信息、未知网站的自动搜索, 而主要是用于指定网
信息多、有用的少、分布杂乱无章、不断发展变化是互联网
上信息资源的特点, 信息来源的异构性是网络信息难以采集整
理再利用的焦点[ 1] 。近年来关于 Web 信息的利用研究很多,
大多集中在搜索引擎技术[ 2] , 旨在利用先进系统和人工智能
技术, 以一定策略在互联网中搜集、发现、理解、组织信息后为
用户提供网页、图片、软件等检索服务。互联网信息采集系统
是对 上某些或某类站点进