1 / 75
文档名称:

基于url及上下文的并行分块处理主题爬虫的研究.pdf

格式:pdf   页数:75页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于url及上下文的并行分块处理主题爬虫的研究.pdf

上传人:1006108867 2014/5/28 文件大小:0 KB

下载得到文件列表

基于url及上下文的并行分块处理主题爬虫的研究.pdf

文档介绍

文档介绍:指导小组成员名单
张世永教授
钟亦平教授
吴承荣副教授
吴杰副教授

顧ˈ릆 1
A B S T R A C T ˈ릆 2
第一章引言ˈ릆 3
研究目的与意义ˈ릆 3
研究背景ˈ릆 4
国内外研究现状ˈ릆 5
1. 3. 1 基丁■关键词的上题爬虫ˈ릆 5
1.ˈ릆 3 .2 基丁页内祚的爬虫ˈ릆 7
.3 基丁涟按特征的 fe题爬虫ˈ릆 9
.4 基丁?其他好认的主题爬虫ˈ릆 12
1. 3 .5 主题孤岛 W 题ˈ릆 13
1. 3 .6 隧迠技术ˈ릆 14
第二章 HADOO P 分布式平台与 NUTCI1概述ˈ릆 1 5
2. 1 Hadoop 分布式平台ˈ릆 15
2.ˈ릆 1. 1 总休架构ˈ릆 15
2 . M apRed uce 分布式计算ˈ릆 16
2 . H D FS 分布式文件系统ˈ릆 18
N u tch 丌源搜索引擎ˈ릆 2 1
2 . 2 . 1 爬虫投块ˈ릆 2 2
2 .ˈ릆 2 . 2 W W 1-机制ˈ릆 2 2
第三章基于 URL 及上下文并行分块处理的主题爬虫ˈ릆 2 4
系统架构与流程ˈ릆 24
主题描述词概括与扩展ˈ릆 26
基于 URL 及上下文的分块处理主题相关度分析ˈ릆 27
ˈ릆 3 . 丄 1 从 r 分块的 JH r 处押ˈ릆 2 8
:}. : L R L 'j I. 卜义的分机ˈ릆 2 9
孤岛问题的解决ˈ릆 35
第四章基于 U RL 及上下文的并行分块处理主题爬虫实现ˈ릆 3 8
2
4. 1 初始化模块ˈ릆 38
4 . 2 待抓取列表生成模块ˈ릆 40
4 . 3 页面爬行模块ˈ릆 42
4 .4 主题相关度分析模块ˈ릆 45
4 . 5 待爬行 URL 列表更新模块ˈ릆 48
4 .ˈ릆 6 存储数据结构ˈ릆 4 9
第五章性能分析与比较ˈ릆 5 1
5.ˈ릆 1 试验环境ˈ릆 5 1
5. 1. 1 软件硬件环境ˈ릆 5 1
5 . 试验、「台搭让ˈ릆 5 1
5 . 实验数据ˈ릆 53
5.ˈ릆 2 系统测试ˈ릆 54
5 .2 . 1 性能测试ˈ릆 54
5 .2 .2 nj?调参数设 H ˈ릆 5 7
第六章总结与展望ˈ릆 6 6
本文工作总结ˈ릆 66
6.ˈ릆 2 未来工作展望ˈ릆 67
猶ˈ릆 7 1
攻读硕士期间发表的论文ˈ릆 7 2
K 门-人学烛|:学位论文
摘要
木论文结合了实体分祈、网络结构分析、隧道技术于一体并加以兑法上的改
进,提出了基于 U RL 及上下文并行分块处理的主题爬虫算法。本算法对主题进行
了实体分析,根据知网的义元关系,将主题描述词进行扩展,作为主题相关度分
析兑法的输入。主题相关度分析算法将页而分成多个含有唯一链接的数据块,在
网络结构与文本内容两个方面并行分析每个输入数据块中的链接,根据链接本身
结构与父页而的相符度而得出网络结构相关的评分,根据数据块中主题描述词的
词频与位置信息得出该链接在文木内容方而的评分。通过可调参数 a 调整两个因
素在总分屮的重要程度,得出此链接的主题相关度总评分。若总分大于设定阈值,
则判定此数据块中的链接是与主题相关的。本主题爬虫在主题相关性分析中加入
了改进的逐级过滤隧道技术。从一?定隧道层数范_ , 以设定的评分阈值过滤小于
此隧道阈值的链接,挑选出真正的前沿性链接, 避免无关网页的抓取, 使爬虫在
适当的性能保证下提高召回率。实验结果充分验证了木论文提出的丛于 U R L 及上
下文的并行分块处现主题爬虫足个巧灵活性、^ 准确度、适用于敁大爬行层数为
4 -6 的小型主题爬虫。
关键字: 主题爬虫,链接分析,本体描述, 并行处理
1
y i」.人屮她 I?学位[仓义
A b str a c t
C om bin ing th e o nto logy an alysis, netw ork top ology an alysis, and tu nn eling
techno logy for algorithm im p ro ve, I propo se p arallel b lock