文档介绍:山东大学硕士学位论文
摘要
随着网络的迅猛发展,一些企业和校园内部局域网的信息量也大幅增长。人们
发现即使是获取局域网的信息也变得困难。目前虽然己经有、百度这些优
秀的通用搜索引擎,但是它们并不能很好的解决这个问题。一方面,通用搜索引
擎的覆盖率都不太高,很多局域网的信息都无法完全搜集:另一方面,通用搜索引
擎的页面更新比较慢,信息的实时性、准确性都无法保证。因此,为了提高局域
网内信息检索的效率,本文设计并实现了适用于局域网信息检索的小型搜索系统。
本文以曲阜师范大学校园网为平台,在深入研究了通用搜索引擎基本原理、,
架构设计和核心技术的基础上,结合曲阜师范大学的实际需求,构建了一个运行
稳定,性能良好且具有可扩展性的小型搜索引擎系统。论文不仅完成了对整个搜
索引擎系统框架的设计,而且基本上完成了所有的开发测试工作。
本文论述了系统开发的背景和国内外搜索引擎技术发展现状,分析了小型搜索
系统的需求,明确了系统开发过程中要解决的问题,提出了具体的设计方案。论
文的主要工作以及创新如下
晗嘎凼鱿低承枨蟆⑾低成杓圃蚝湍勘辏魅妨讼低彻δ埽杓瞥鱿晗
的系统流程图。
芯苛送缰┲胍趁娌杉碛胨惴ǎ瓿闪硕员镜匾趁婕扛拢翰
用了权威页面算法,及时发现并抓取网络中出现的新鲜页面,进一步提高了信息
的实时性。
杓撇⑹迪至艘趁娴慕馕瞿?椋缘酱锾崛∥谋灸谌莸哪康模奖闼饕
攵运阉鹘峁谐鱿执罅康闹馗匆趁娴奈侍猓芯苛薓算法实现对索引
中重复页面的消除,部分优化了搜索结果
杓屏思蚪嗍涤玫挠没Ы缑妫⒍韵低辰辛瞬馐院托阅芊治觥
关键词:搜索引擎;校园网:煌缗莱妫籐
山东大学硕士学位论文
第滦髀
研究背景
随着网络技术的不断发展以及网络应用越来越普及,网络信息已经成为人们
最重视的信息获取途径之一。然而网络信息的数据量巨大,如何让用户在浩瀚的
网络信息中更全、更准、更有效地找到对自己有用的信息成为了网络信息检索领
域一个长期研究的课题。现在,网络搜索引擎己成为全球范围内研究、教学、商
务等活动中不可缺少的重要工具,在一定程度上解决了网络信息资源查找的问题。
不仅是我们个人对搜索引擎的应用越来越频繁,利用它获取更多更有效的信
息,企业对搜索引擎也越来越重视,利用搜索引擎爬行企业内部网站或文件系统
的资料,以便需要时进行搜索。另~方面,对于企业来讲,提高企业竞争优势是
企业长期发展的前提。为提高企业自身的竞争优势,常常需要进行企业竞争对手
分析,为此及时掌握竞争对手的各种情况,就成为企业竞争情报中的一个重要环
节。随着企业信息化建设的不断发展,通过互联网,对企业门户网站进行有效的
挖掘,就自然成为收集竞争对手情报的一个重要的手段。随着网络的迅猛发展,
校园内部局域网的信息量也大幅增长,利用通用搜索引擎来获取局域网的信息效
率不高。实际上,在人们每天浏览的畔⒅校诘木钟蛲畔⒄剂撕艽笠
部分。如何检索这些局域网的信息也成了信息检索发展的一个重要方向。相对互
联网而言,局域网的数据量要小的多,局域网在信息采集、索引以及更新等方面
都更为方便,它所提供的局域网内的信息搜索结果将更准确和及时。因此,在局
域网内建立小型搜索引擎对获取信息是很有帮助的А
在年初发表锁定小型企业、包含软/硬件的八阉髯爸茫
最便宜的可搜索蚋鑫募奂畚涝#晃⑷碓蛟
月初释出版,这也是微软首款免费的企业端搜索软
件,该软件采用的搜索核心,涵盖所有微软产品及档案的
搜索,正式版预计在明年初问世。布尤肓似笠邓阉餮蟹⒍游椋琁
С虮饰募乃阉鳎约耙话阃缧畔⒌乃阉鳌
搜索引擎的发展本文的主要工作随着近几年小型搜索引擎的快速发展。在国内,一方面,很多基于主题领域的小型搜索引擎得到很好的发展,一些音乐搜索引擎以及医药方面的搜索都有很好的应用。另一方面,在越来越多的学校、企业、比较大型的网站如伎J建立了自己的搜索引擎。在国外,比较著名的有:美国教育资源信息搜索的迪忠揭┪南姿阉鞯腍龋⌒妥ㄒ档乃阉饕婧橇撕芏喾型专用的搜索引擎将在人们获取畔⒅蟹⒒痈匾5淖饔谩在小型搜索引擎快速发展的同时,越来越多的人致力于研究和发展这些小型搜索引擎开发技术,和瞧渲械淖钗S判愕拇沓晒且个高性能、纯的全文检索引擎,完全开源、免费。几乎适合于任何需要全文检索的应用,尤其是跨平台的应用。在成为下的一个子项目后,能。且桓隹7旁创的搜索引擎。相对于大型通用搜索源,用户可以很方便的使用⒖梢越岷暇咛迩榭龆訬进行研究与改进。且訪;∈迪值乃阉饕嬗τ贸绦颍琇狽提供了文本索引和查询服务的鳱在的基础上实现了网页收集与搜索【俊小型搜索引擎与通用搜索引擎相比有很多优点,由于它本身的信息量小,它不可能取代通用搜索引擎。但是,它是对通用搜索的很好的补充。随着