1 / 2
文档名称:

Lucene搜索引擎.pdf

格式:pdf   大小:105KB   页数:2页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Lucene搜索引擎.pdf

上传人:q1188830 2022/2/24 文件大小:105 KB

下载得到文件列表

Lucene搜索引擎.pdf

相关文档

文档介绍

文档介绍:计 算 机 工 程 2007 年 9 月
第 33 卷 第 18 期 rm)的个数,通常情况下,每个索引项就是文档中的 语的文档。该列表还会包含一些辅助信息,比如该词或者短
一个单词或者短语。这样,K 维向量中的每一项的值,就是 语在文档中出现的次数以及出现的位置等,这些信息会被用
该索引项在这个文档中的权重。权重一般情况下是个大于或 来对搜索结果进行排序。这种结构对于“哪些文档中包含单
者等于 0 的值,如果该索引项在该文档中不存在,则权重为 词 X”这样的问题能够快速得到搜索结果。例如,典型的反
0,否则权重被赋予一个大于 0 的值。按照这个定义,每个文 向列表可表示为 tdin→〈 12,,KK〉 〈d,〉,K,〈d,K〉。
档可以表示为 索引文件结构
d = (, ,..., )
j ww1, jj2, wk, j 为了实现高效的索引和检索,就必须具有良好的索引文
其中, wkj, 表示第 k 个索引项在文档 j 中的权重。同理,每个 件结构。Lucene 的索引文件包括逻辑结构和物理结构。Lucene
q=( , ,..., ) 的每个索引文件都由一个或者多个片段(segment)组成;每个
查询语句也可以表示成向量 ww1,qq2, wk,q。将文档和用户的
片段都是一个可以被独立检索的模块,包含一定数量的文档
查询语句都表示成向量之后,就可以利用文档向量和查询向
(document),这里的文档可以是一个 HTML 页面,一个 XML
量之间的相似性来表示文档和查询之间的相关性。为了衡量
文档,或一个 Word 文档。Lucene 的索引文件的逻辑结构如
文档向量和查询向量之间的相似