1 / 68
文档名称:

主题网络爬虫关键技术研究.pdf

格式:pdf   大小:3,128KB   页数:68页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

主题网络爬虫关键技术研究.pdf

上传人:zhufutaobao 2021/11/8 文件大小:3.05 MB

下载得到文件列表

主题网络爬虫关键技术研究.pdf

文档介绍

文档介绍:硕士学位论文

主题网络爬虫关键技术研究
RESEARCH ON KEY TECHNIQUES OF
TOPICAL WEB CRAWLER


王桂梅





哈尔滨工业大学
2009年6月
国内图书分类号: 学校代码:10213
国际图书分类号: 密级:公开


工学硕士学位论文

主题网络爬虫关键技术研究







硕 士 研究生: 王桂梅
导 师: 刘秉权 副教授
申 请 学 位 : 工学硕士
学 科: 计算机科学与技术
所 在 单 位 : 计算机科学与技术学院
答 辩 日 期 : 2009 年 6 月
授予学位单位: 哈尔滨工业大学
Classified Index: School Code: 10213
: Secret Level: Publicity

Dissertation for the Master Degree in Engineering

RESEARCH ON KEY TECHNIQUES OF
TOPICAL WEB CRAWLER








Candidate: Wang Guimei
Supervisor: Associate Prof. Liu Bingquan
Academic Degree Applied for: Master of Engineering
Specialty: Computer Science and Technology
Affiliation: School of Computer Science and
Technology
Date of Defence: June, 2009
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘 要
随着 Internet 的迅速发展,网络上的资源日趋丰富,通用搜索引擎已经不
能满足人们对个性化信息检索服务日益增长的需要,面向主题的搜索引擎应运
而生,提供信息分类更细致精确的网络搜索服务。主题爬虫是面向主题搜索引
擎的一个关键组成部分。主题爬虫根据用户定义的目标主题,智能化地从 Web
上收集主题相关的网页,能够快速、准确地得到网络中的有用信息资源。
本文首先分析了主题爬虫的技术原理、工作流程,然后重点分析了爬虫的
主题表示、主题相关性判断、主题预测及主题搜索策略。主要研究工作如下:
第一,在主题表示方面,通用的基于关键词的主题表示精确度不高,为此,
本文提出了利用交互策略进行基于关键词的主题表示。即,先经过程序分析,
提供候选主题表示关键词,再由用户通过程序提供的接口进行关键词的修改。
通过这种人工