文档介绍:硕士学位论文
主题网络爬虫关键技术研究
RESEARCH ON KEY TECHNIQUES OF
TOPICAL WEB CRAWLER
王桂梅
哈尔滨工业大学
2009年6月
国内图书分类号: 学校代码:10213
国际图书分类号: 密级:公开
工学硕士学位论文
主题网络爬虫关键技术研究
硕 士 研究生: 王桂梅
导 师: 刘秉权 副教授
申 请 学 位 : 工学硕士
学 科: 计算机科学与技术
所 在 单 位 : 计算机科学与技术学院
答 辩 日 期 : 2009 年 6 月
授予学位单位: 哈尔滨工业大学
Classified Index: School Code: 10213
: Secret Level: Publicity
Dissertation for the Master Degree in Engineering
RESEARCH ON KEY TECHNIQUES OF
TOPICAL WEB CRAWLER
Candidate: Wang Guimei
Supervisor: Associate Prof. Liu Bingquan
Academic Degree Applied for: Master of Engineering
Specialty: Computer Science and Technology
Affiliation: School of Computer Science and
Technology
Date of Defence: June, 2009
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘 要
随着 Internet 的迅速发展,网络上的资源日趋丰富,通用搜索引擎已经不
能满足人们对个性化信息检索服务日益增长的需要,面向主题的搜索引擎应运
而生,提供信息分类更细致精确的网络搜索服务。主题爬虫是面向主题搜索引
擎的一个关键组成部分。主题爬虫根据用户定义的目标主题,智能化地从 Web
上收集主题相关的网页,能够快速、准确地得到网络中的有用信息资源。
本文首先分析了主题爬虫的技术原理、工作流程,然后重点分析了爬虫的
主题表示、主题相关性判断、主题预测及主题搜索策略。主要研究工作如下:
第一,在主题表示方面,通用的基于关键词的主题表示精确度不高,为此,
本文提出了利用交互策略进行基于关键词的主题表示。即,先经过程序分析,
提供候选主题表示关键词,再由用户通过程序提供的接口进行关键词的修改。
通过这种人工