1 / 44
文档名称:

Lucene(一).ppt.ppt

格式:ppt   页数:44页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

Lucene(一).ppt.ppt

上传人:xinsheng2008 2016/6/1 文件大小:0 KB

下载得到文件列表

Lucene(一).ppt.ppt

相关文档

文档介绍

文档介绍:Lucene Lucene ( (一) 一) Nutch 篇( 1) 之张林才 2006. 9. 27 什么是什么是 Lucene Lucene ? ? ? Lucene 是 apache 软件基金会 jakarta 项目组的一个子项目,是一个开放源代码的全文检索引擎工具包?是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎?目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 Nutch Nutch 是什么? 是什么? ? Nutch 是一个刚刚诞生开放源代码( open- source) 的 web 搜索引擎. ? nutch 是采用 Lucene 核心的一个 web 搜索引擎的实现? Nutch 使用 Lucene 进行索引,所以所有的 Lucene 工具和 API 都可以在 Nutch 生成的索引上工作。为什么我们需要用为什么我们需要用 Nutch Nutch 建立建立自己的搜索引擎呢? 自己的搜索引擎呢? ?透明度: Nutch 是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。?对搜索引擎的理解:我们并没有 google 的源代码,因此学****搜索引擎 Nutch 是个不错的选择。?扩展性:你是不是不喜欢其他的搜索引擎展现结果的方式呢?那就用 Nutch 写你自己的搜索引擎吧。安装层次和安装层次和架构架构? Nutch 的安装分为 3个层次: ?基于本地文件系统?基于局域网?基于 ?总体上 Nutch 可以分为 2个部分: ?抓取部分:抓取程序抓取页面并把抓取回来的数据做成反向索引?搜索部分:搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引注:搜索程序和抓取程序可以分别位于不同的机器上。工作原理简介之工作原理简介之抓取抓取?抓取程序是被 Nutch 的抓取工具驱动的。这是一组工具,用来建立和维护几个不同的数据结构: ? web database , ? a set of segments , ? and the index 。 The The web database web database WebDB , 是一个特殊存储数据结构, 用来映像被抓取网站数据的结构和属性的集合。 WebDB 用来存储从抓取开始(包括重新抓取)的所有网站结构数据和属性。 WebDB 只是被抓取程序使用, 搜索程序并不使用它。 The The web database web database WebDB 存储 2种实体: 页面:表示网络上的一个网页,这个网页的 Url 作为标示被索引,同时建立一个对网页内容的 MD5 哈希签名。跟网页相关的其它内容也被存储,包括:页面中的链接数量(外链接),页面抓取信息(在页面被重复抓取的情况下), 还有表示页面级别的分数 score 。链接:表示从一个网页的链接到其它网页的链接。因此 WebDB 可以说是一个网络图,节点是页面,链接是边。 Segment Segment Segment 是网页的集合,并且它被索引。 Segment 的 Fetchlist 是抓取程序使用的 url 列表,它是从 WebDB 中生成的。 Fetcher 的输出数据是从 fetchlist 中抓取的网页。 Fetcher 的输出数据先被反向索引,然后索引后的结果被存储在 segment 中。 Segment 的生命周期是有限制的,当下一轮抓取开始后它就没有用了。 index index 索引库是反向索引所有系统中被抓取的页面,他并不直接从页面反向索引产生,它是合并很多小的 segment 的索引中产生的。 Nutch 使用 Lucene 来建立索引,因此所有 Lucene 相关的工具 API 都用来建立索引库。