1 / 45
文档名称:

开放源代码的全文检索引擎lucene.doc

格式:doc   大小:223KB   页数:45页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

开放源代码的全文检索引擎lucene.doc

上传人:精品小课件 2021/8/9 文件大小:223 KB

下载得到文件列表

开放源代码的全文检索引擎lucene.doc

文档介绍

文档介绍:开放源代码的全文检索引擎 Lucene
――介绍、系统结构与源码实现分析
 
第一节 全文检索系统与Lucene简介
 
一、             什么是全文检索与全文检索系统?
 
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。
 
全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点,在此不做详述。
 
全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW[1]的开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。。
 
在上图中,我们看到:全文检索系统中最为关键的部分是全文检索引擎,各种应用程序都需要建立在这个引擎之上。一个全文检索应用的优异程度,根本上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。另一个方面,一个优异的全文检索引擎,在做到效率优化的同时,还需要具有开放的体系结构,以方便程序员对整个系统进行优化改造,或者是添加原有系统没有的功能。比如在当今多语言处理的环境下,有时需要给全文检索系统添加处理某种语言或者文本格式的功能,比如在英文系统中添加中文处理功能,在纯文本系统中添加XML[2]或者HTML[3]格式的文本处理功能,系统的开放性和扩充性就十分的重要。
 
二、             什么是Lucene?
 
Lucene是apache软件基金会[4] jakarta项目组的一个子项目,是一个开放源代码[5]的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
 
Lucene的原作者是Doug Cutting,他是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎[6]的主要开发者,后在Excite[7]担任高级系统架构设计师,目前从事于一些Internet底层架构的研究。早先发布在作者自己的/,后来发布在SourceForge[8],2001年年底成为apache软件基金会jakarta的一个子项目:/。
 
三、             Lucene的应用、特点及优势
 
作为一个开放源代码项目,Lucene从问世之后,引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用,甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。apache软件基金会的网站使用了Lucene作为全文检索的引擎,IBM的开源软件eclipse[9],相应的IBM的商业软件Web Sphere[10]中也采用了Lucene。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构获得了越来越多的应用。
 
Lucene作为一个全文检索引擎,其具有如下突出的优点:
(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件

最近更新

冷库冷负荷计算 7页

汽车销售人员辞职报告范文20243篇 4页

天门市六年级下册数学期末测试卷带答案 5页

冀教版四年级数学上册期中试卷8 6页

姜堰市小升初数学考试真题卷必考题 8页

子长县六年级下册数学期末测试卷及1套完整答案.. 6页

宁国市小升初数学考试真题卷必考题 7页

六年级下册科学教案23米饭淀粉和碘酒变化|教.. 4页

基于能量与簇头控制的无线传感器网络路由协议.. 2页

安龙县小升初数学考试真题卷完美版 7页

定远县六年级下册数学期末测试卷精品有答案 6页

宜春市六年级下册数学期末测试卷(达标题) 5页

实用小学数学青岛版六年级下册期末测试卷【夺.. 7页

富县六年级下册数学期末测试卷附精品答案 6页

植树节低碳生活演讲稿2篇 3页

BNP的临床意义 3页

光栅单色仪调整和使用(12) 4页

小学六年级上册数学期末测试卷含完整答案【易.. 6页

小学六年级上册数学期末测试卷附答案(突破训.. 7页

停工及复工安全隐患排查表 3页

基于纳米材料修饰电极的蛋白质直接电化学研究.. 2页

人教版六年级上册数学圆的面积市公开课一等奖.. 92页

小学数学人教版六年级下册期末测试卷附参考答.. 7页

小学数学北京版六年级下册期末测试卷含答案(.. 8页

小学数学北师大版六年级下册期末测试卷【考点.. 6页

小学数学沪教版六年级下册期末测试卷带答案(.. 7页

化州橘红市场发展特点分析(报告) 10页

人美小学美术一年级上册《第15课神气小厨师》.. 3页

包饺子策划方案 12页

包装设计调查报告5000字范文 9页