文档名称：

nutch爬虫系统分析［精品论文报告］.doc

格式：doc 页数：59页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

nutch爬虫系统分析［精品论文报告］.doc

上传人:yixingmaoj 2015/11/8 文件大小：0 KB

下载得到文件列表

nutch爬虫系统分析［精品论文报告］.doc

相关文档

文档介绍

文档介绍：Nutch分析
1 Nutch简介 2
nutch体系结构 2
2 抓取部分 3
爬虫的数据结构及含义 3
抓取目录分析 4
抓取过程概述 4
抓取过程分析 5
inject方法 6
generate方法 12
fetch 方法 14
parse方法 16
update方法 16
invert方法 19
index方法 23
dedup方法 26
merge方法 30
3 配置文件分析 31
nutch- 31
 31
 32
 35
 37
 41
 42
 43
 45
 45
 45
 48
 48
 49
 49
 51
 52
 52
 53
 53
 54
 55
 55
 55
 56
 56
regex- 58
regex- 58
总结 59
4 参考资源 59
Nutch简介
nutch体系结构
抓取部分
爬虫的数据结构及含义
爬虫系统是由Nutch的爬虫工具驱动的。并且把构建和维护一些数据结构类型同一系列工具关联起来:包括web database、一系列的segment和index。接下来我们将详细描述他们。
三者的物理文件分别存储在爬行结果目录下的crawldb文件夹内,segments文件夹和index文件夹内。那么三者分别存储的信息是什么呢?
Web database,也叫WebDB,其中存储的是爬虫所抓取网页之间的链接结构信息,它只在爬虫Crawler工作中使用而和Searcher的工作没有任何关系。WebDB内存储了两种实体的信息:page和link。Page实体通过描述网络上一个网页的特征信息来表征一个实际的网页,因为网页有很多个需要描述,WebDB中通过网页的URL和网页内容的MD5两种索引方法对这些网页实体进行了索引。Page实体描述的网页特征主要包括网页内的 link数目,抓取此网页的时间等相关抓取信息,对此网页的重要度评分等。同样的,Link实体描述的是两个page实体之间的链接关系。WebDB构成了一