文档介绍:武汉理工大学
硕士学位论文
基于Lucene小型搜索引擎的研究与实现
姓名:冯斌
申请学位级别:硕士
专业:计算机应用技术
指导教师:周彩兰
20080401
摘要攵运阉鹘峁牟蛔既贰⒅秃笪侍猓治隽送缧畔⒏碌奶氐悖贚砑杓剖迪至讼低澈诵牡乃饕退阉髂?椋瓿闪对页面的索引和搜索。在此过程中,设计了页面解析框架,实现了对多种格式的文本解析;研究并改进了最大正向分词算法,提高了对中文信息的分词效率;攵运阉鹘峁谐鱿执罅康闹馗匆趁娴奈侍猓芯苛薓算法实现对索引中重复页面的消除,部分优化了搜索结果。随着网络的迅猛发展,一些企业和校园内部局域网的信息量也大幅增长。人们发现即使是获取局域网的信息也变得困难。目前虽然已经有、百度这些优秀的通用搜索引擎,但是它们并不能很好的解决这个问题。一方面,通用搜索引擎的覆盖率都不太高,很多局域网的信息都无法完全搜集:另一方面,通用搜索引擎的页面更新比较慢,信息的实时性、准确性都无法保证。因此,为了提高局域网内信息检索的效率,本文设计并实现了适用于局域网信息检索的小型搜索系统。本文以校园网为平台,在深入研究了通用搜索引擎基本原理、架构设计和核心技术的基础上,结合小型搜索引擎的个性化需求,构建了一个运行稳定,性能良好且具有可扩展性的小型搜索引擎系统。论文不仅完成了对整个搜索引擎系统框架的设计,而且基本上完成了所有的开发测试工作。本文论述了系统开发的背景和国内外搜索引擎技术发展现状,分析了小型搜索系统的个性化需求,明确了系统开发过程中要解决的问题,提出了具体的设计方案。论文的主要工作以及创新如下:昧朔植际酱砟P虷罱讼低撤植际娇蚣埽岣吡讼低的整体性能。了作业调度系统,设计并实现了页面更新模块,提高了信息搜索的准确性和实时性。最后,通过在校园网上运行,分析了运行的数据,证明系统己成功达到了预期的目标。关键词:搜索引擎,,重复页面,中文分词
,,,,’瓵琣.,
琲:,瑃瓸瑃瓺籭;Ⅱ
签名:』匝导师签名:卫妞日独创性声明关于论文使用授权的说明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特另/员曜⒑椭滦坏牡胤酵猓畚闹胁话他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。C艿穆畚脑诮饷芎笥ψ袷卮斯娑签名:
第滦髀课题的研究背景与意义在互联网蓬勃发展的今天,互联网上的信息浩如烟海。人们在享受互联网自己所需要的信息的问题,由此互联网搜索引擎应运而生。搜索引擎叫也被美誉“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、大,远超出哪怕是最大的搜索引擎可以完全收集的能力范围。对于任何搜索引而且,这些通用的搜索引擎的商业气息愈发严重。例如,筒扇×司杭叟随着网络的迅猛发展,一些企业和校园内部局域网的信息量也大幅增长,利用通用搜索引擎来获取局域网的信息效率不高。实际上,在人们每天浏览的畔⒅校诘木钟蛲畔⒄剂撕艽笠徊糠帧H绾渭焖髡庑┚钟蛲男畔也成了信息检索发展的一个重要方向。相对互联网而言,局域网的数据量要小的多,局域网在信息采集、索引以及更新等方面都更为方便,它所提供的局域网内的信息搜索结果将更准确和及时。因此,在局域网内建立小型搜索引擎对获取信息是很有帮助的。带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地找到,且砸欢ǖ牟呗栽诨チM兴鸭⒎⑾中畔ⅲ孕畔⒔理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供导航服务己经成为互联网上非常重要的网络服务,搜索引擎站点开发的对象。目前虽然已经有了像、百度这些优秀的通用搜索引擎,但是它们所提供的服务并不能很好的满足所有人的需求。一方面,由于互联网上信息量巨擎来说,要爬取互联网上所有的网页几乎是不可能的。另一方面,任何一次搜索都会带来大量冗余的网页信息,想要快速获取真正想要的信息依然很困难。名的方式获利,这无疑降低了搜索结果的公正性。武汉理喝搜丁甀:学位论文
小型搜索引擎研究现状与发展趋势7⒊隼吹摹S没е灰U返陌沧熬涂梢允迪中⌒偷乃且桓隹7旁创的阉饕妗O喽杂诖笮屯ㄓ搜索。谧芴寮芄股戏治M呈占⒔⑺饕筒檠袢霾糠帧始网页建立索引存入数据库中;⑺饕绦蛟虼幼ト」吹耐程崛∑中的⒈晏狻⒛谌莸裙丶剩ú煌袷降氖菰醋;怀善淠诓靠梢允侗鸬目标的一种结构,从而建立并维护索引库;檠癯绦蚪邮沼没峤坏近几年,小型搜索引擎快速发展。在国内,一方面,很多基于