1 / 3
文档名称:

Lucene拾零.doc

格式:doc   大小:21KB   页数:3页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Lucene拾零.doc

上传人:neryka98 2021/12/9 文件大小:21 KB

下载得到文件列表

Lucene拾零.doc

相关文档

文档介绍

文档介绍:精品文档,仅供学****与交流,如有侵权请联系网站删除
【精品文档】第 1 页
一、建立索引
IndexWriter——Lucene内部用来创建索引的最重要的组件。可以创建新索引,或者从文档增量地创建索引。
Directory——Directory是一个抽象类,用于表达索引存放的目录,在lucene内部提供了两个实现,一个是FSDirectory,一个是RAMDirectory,顾名思义了。Directory可能在内部提供了锁的机制,使得建立索引和搜索可以同时进行。
Analyzer——又是一个抽象类,是IndexWriter的构成组件之一,主要用来分析文本,包括分词,去除stop words等等功能。在构建一个项目的时候,选取或者创建正确的分析器是至关重要的。
Document——是Lucene处理的对象,一个Document是一组Field的集合
Field——Lucene建立的索引中,每个Document都包含一个或者多个命名的域,被包装在Field类中,Field有多种的类型,Keyword,UnIndexed,Unstored,Text
二、搜索过程
IndexSearcher——这个对象主要用来检索IndexWriter生成的索引文件,所以IndexSearcher构造的时候,使用一个包含了索引所在目录的Directory对象来构造。IndexSearcher提供的是一种对索引文件的只读访问,里面提供了多种搜索方法。在我第一次的笔记里代码中用到的search方法,接受一个Query对象和一个HitCollector对象,返回值为空。搜索结果被填充到HitCollector中。
Term——该对象是一个和Field相似的对象,包含一个名字和值对。但是目前,在代码里还没有遇到过这个对象,虽然书里提到在建立索引和搜索的过程中都会用到这个东西,但是实际上,我并没有看到。
Query——Query类是一个抽象类,在Lucene的内部有许多的实现,虽然说,书中也提到了最基本的Query是TermQuery,但是看了看内部的代码,在笔记1中提到的代码内部,实际上用到是BooleanQuery,而不是TermQuery。
TermQuery——最基本的Query,上面也提到了,用来匹配文档中包含的特定的域的特定的值,暂时也没有碰到过。
Hits——这个对象本来应该是一个简单的容器,用来包含搜索得到的排序结果的,但是实际上,在笔记1中的代码里,已经看不到这个东西了,Lucene已经不推荐使用这个东西,现在用到的东西是HitCollector似乎是一个更高级的容器了,在代码中我们看到,我们从这个对象中去除了一个Document的数组,包含的元素正是搜索结果。
QueryParser——这个对象在书中没有提到,实际上,我觉得必须要有的,本质上就是把一个字符串转换成一个Query对象,实际上,这个东西应该是设计得非常的复杂的,因为搜索引擎一般都提供了很丰富的搜索语法,Lucene也是一样的。构造QueryParser的时候,还可以指定专门的Analyzer。
精品文档,仅供学****与交流,如有侵权请联系网站删除
【精品文档】第 2 页
三、建立索引主要步骤
1、提取文本
Lucene只能对纯文本建立索引,所以,