1 / 55
文档名称:

基于lucene搜索引擎优化.pdf

格式:pdf   页数:55页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于lucene搜索引擎优化.pdf

上传人:jd234561 2016/6/20 文件大小:0 KB

下载得到文件列表

基于lucene搜索引擎优化.pdf

相关文档

文档介绍

文档介绍:北京交通大学硕士学位论文基于Lucene的搜索引擎优化姓名:闻峥申请学位级别:硕士专业:软件工程指导教师:孔令波 201106 中文摘要当今网络技术飞速发展,随之而来的是信息量的爆炸式增长,人类已经进入了信息时代,互联网在提供人们海量信息的同时,也带来了搜索信息的困难。如何才能在如此浩瀚的信息海洋中寻找自己想要的信息,一直是互联网用户关心的问题。搜索引擎正是解决这一问题的有利工具,搜索引擎技术是根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。但是由于搜索引擎技术涉及到数据库、信息检索、人工智能、自然语言处理等技术,所以众多商业公司都不愿将自己的搜索引擎核心技术公之于众。 Luce舱是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎, 部分文本分析引擎。本人在公司实习期间的主要工作为设计公司网站的站内全文搜索引擎,因此本人对搜索引擎技术进行了较为深入的了解和研究,本文是通过对全文搜索引擎工具包Lucene的架构的分析,实现和更新了Lucene中的部分模块以满足实际的需要。 、查准率不够理想的缺点, 重新设计实现了Lucene的中文分词模块。首先对Luce鹏中的词典机制进行了优化设计,之后利用简易词典对字符串搜索范围进行了有效的缩减。与原Luce北的检索模块相比,提高了一定的检索效率。 ,并采用了词前缀哈希算法来进行中文匹配。 、Page刚【算法、Direct Hit这三种网页搜索结果排序经典算法的研究,将这三种优秀算法的思想融合到Lucene排序算法中,并通过实验证明了本文设计的排序算法的具有一定的优越性。关键词:搜索引擎;Lucene: 中文分词;索引:排序算法 jE塞交道盘堂童些亟±堂位j金塞△旦曼!B△堡工 AB STRACT Along withtherapiddeVeIopment 、Ⅳorktechniques,tIle da瞳a on theIntemet h弱gr0、VIl explosiVely. We now haVe entered theinfomationage,锄d how tofind the intereStinginf0衄ation f而m tllehuge锄ount oftl_圮讹is∞w ing more锄d more di硒cult cope with t11isproblem,search engine mon、 isuSu甜ly b嬲ed on certains乜铽egy:uSing puter progmm t0collectdata丘‘om tlleIntemetfirst,proVidillg邯ers埘m retrieval∞rvice once tlle user input theirintere螈甜ke”Ⅳ0rdq眦巧,m%Sho、Ⅳing tllereleV觚t data tottle髑er..S硫ce tIle∞arch engine deVelopment coVerS m锄y di能rent fields, such 弱databaSe, info啪ation陀trieval,anificial intelligence,mLn砌lan目lage pr(’cessingtecⅢque, merCiaI C0mpanies d0 notlike topr0Vide theirsearchengines弱仔ee. Lucene is雏open soImce血ll text∞arch engine tololl( is a searChen西鹏触mework,and pr0Vides que巧processing锄gi鹏,iIldexing engine锄d panS of te)【t 锄alysis tIleintemship,my m萄or work is t0design awebsite∞arch Ihave tlleopponLm时t0 study tIle如U text search engine tecllrlology, especially tlleLucene. For seeing tllattlleLucene觑mework could not satis母tlle requirements of our webs沁∞arch en酉m,Ircdesigncd锄d陀a