文档名称：

Lucene拾零.doc

格式：doc 大小：21KB 页数：3页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

Lucene拾零.doc

上传人:neryka98 2021/12/9 文件大小：21 KB

下载得到文件列表

Lucene拾零.doc

相关文档

文档介绍

文档介绍：精品文档，仅供学****与交流，如有侵权请联系网站删除
【精品文档】第 1 页
一、建立索引
IndexWriter——Lucene内部用来创建索引的最重要的组件。可以创建新索引，或者从文档增量地创建索引。
Directory——Directory是一个抽象类，用于表达索引存放的目录，在lucene内部提供了两个实现，一个是FSDirectory，一个是RAMDirectory，顾名思义了。Directory可能在内部提供了锁的机制，使得建立索引和搜索可以同时进行。
Analyzer——又是一个抽象类，是IndexWriter的构成组件之一，主要用来分析文本，包括分词，去除stop words等等功能。在构建一个项目的时候，选取或者创建正确的分析器是至关重要的。
Document——是Lucene处理的对象，一个Document是一组Field的集合
Field——Lucene建立的索引中，每个Document都包含一个或者多个命名的域，被包装在Field类中，Field有多种的类型，Keyword，UnIndexed，Unstored，Text
二、搜索过程
IndexSearcher——这个对象主要用来检索IndexWriter生成的索引文件，所以IndexSearcher构造的时候，使用一个包含了索引所在目录的Directory对象来构造。IndexSearcher提供的是一种对索引文件的只读访问，里面提供了多种搜索方法。在我第一次的笔记里代码中用到的search方法，接受一个Query对象和一个HitCollector对象，返回值为空。搜索结果被填充到HitCollector中。
Term——该对象是一个和Field相似的对象，包含一个名字和值对。但是目前，在代码里还没有遇到过这个对象，虽然书里提到在建立索引和搜索的过程中都会用到这个东西，但是实际上，我并没有看到。
Query——Query类是一个抽象类，在Lucene的内部有许多的实现，虽然说，书中也提到了最基本的Query是TermQuery，但是看了看内部的代码，在笔记1中提到的代码内部，实际上用到是BooleanQuery，而不是TermQuery。
TermQuery——最基本的Query，上面也提到了，用来匹配文档中包含的特定的域的特定的值，暂时也没有碰到过。
Hits——这个对象本来应该是一个简单的容器，用来包含搜索得到的排序结果的，但是实际上，在笔记1中的代码里，已经看不到这个东西了，Lucene已经不推荐使用这个东西，现在用到的东西是HitCollector似乎是一个更高级的容器了，在代码中我们看到，我们从这个对象中去除了一个Document的数组，包含的元素正是搜索结果。
QueryParser——这个对象在书中没有提到，实际上，我觉得必须要有的，本质上就是把一个字符串转换成一个Query对象，实际上，这个东西应该是设计得非常的复杂的，因为搜索引擎一般都提供了很丰富的搜索语法，Lucene也是一样的。构造QueryParser的时候，还可以指定专门的Analyzer。
精品文档，仅供学****与交流，如有侵权请联系网站删除
【精品文档】第 2 页
三、建立索引主要步骤
1、提取文本
Lucene只能对纯文本建立索引，所以，