文档介绍:山东大学
硕士学位论文
校园网搜索引擎系统的设计与实现
姓名:刘琳
申请学位级别:硕士
专业:软件工程
指导教师:马军
20070420
摘要随着校园网建设的迅速发展,校园网内的信息内容正在以惊人的速度增加着。如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇、迎接挑战和获取成功的重要条件。目前虽然已经有了像、百度这样优秀的通用搜索引擎,但是它们并不能适用于所有的情况和需要。对学术搜索、政府类站点、校园网的搜索来说,一个公平的排序结果是非常重要的。另外,由于互联网上信息量之巨,远远超出哪怕是最大的一个搜索引擎可以完全收集的能力范围。而且原有的校园网搜索引擎存在查准率、查全率不高,升级维护困难等局限性。因此,本着整合校园网资源的目的,为方便广大师生对校园网信息的获取和使用以及其他人对山东大学的了解,本文设计并实现了一个灵活、可配置、具有良好可扩展性且效率较高的校园网搜索引擎系统。本文在研究阉饕娴幕驹怼⒑诵募际鹾痛砹鞒痰幕∩希岷校园网搜索引擎的个性化需求,搭建了山东大学校园网搜索引擎系统。不仅完成本文论述了系统开发的背景和国内外搜索引擎技术发展现状,并详细说明了该搜索引擎系统的丌发过程和方法。首先从功能需求和非功能需求两个方面对校园网搜索引擎的个性化需求进行分析。然后根据需求分析提出了实现目标和原则,术架构设计中,自行设计了插件机制,用于提高系统的可扩展性、灵活性、可维护性,并降低了设计和开发的复杂性。另外,采用疪植际酱砟P作为存储和处理的基础,提高系统的并发处理能力,降低系统对硬件配置的要求。在详细设计阶段,具体描述了各个功能模块和插件机制的设计。其中,信息爬取模块采用了广度优先的爬取方式,索引和检索模块都是基于软件包实现的,所以还介绍了的相关内容。最后对实现过程中遇到的重要问题提出了详细的解决方案。系统实现部分描述了系统的运行环境和实现界面,并重点叙述了实现过程中的几个关键问题,如分词算法的实现以及链接分析算法的实现了整个搜索引擎框架的设计,而且基本上完成了所有的开发工作。从系统的功能架构和技术架构两个方面描述了系统的整体功能和总体流程。在技等。最后对系统进行测试,并根据测试结果进行了性能分析。实验证明,与原有搜索引擎相比,新的搜索引擎系统神:检索效率和杏准率等方郁有了质的提高。山尔人学硕卜学位论文
关键词:搜索引擎;插件;分布式;网络爬虫;山尔人学硕十学位论文
喻鷓舏彻卸锄百疗锄琤锄琫肿鷈抽錸鷗琻,╩╪,∞∏鷌╪,,趴鷇.」蟚癳山尔人学硕十学侮论文伊瓼、,,丌瓾Ⅱ蟫瑃瓵,,甋緄琧瑆,】,.,’甌,.
鷓醓百鷇磘鷗山尔人学顺十学传论文鮰.:;鵬籇籛.’吕籐
导师签名:∑论文作者签名:垒论文作者签名:童:日期:越:生垫盐号Γ哄原创性声明关于学位论文使用授权的声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。.本人同意学校保留或向国家有关部门或机构送交论文的印刷件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。C苈畚脑诮饷芎笥ψ袷卮斯娑日期:
第滦髀系统开发背景用户查询信息。实践证明,搜索引擎是一个非常有用的信息检索工具¨删。未来较低的局限性,而且不捌有自主产权,从而使得维护和升级比较困难。,互联网上的信息更是浩如烟海。人们在享受互连网带来的便利的同时,却面僮乓桓鋈绾卧谌绱撕A康哪谌葜凶既贰⒖旖莸卣业自己所需要的信息的问题,由此互联网搜索引擎应运而生。它们通过信息采集收集网上的信息,然后根据一定的规则建立索引来组织数据库,通过友好的界面供的互联网都是以内容导向的,当人们打开浏览器时,首先连到搜索引擎再根据搜索引擎的查找结果连接到相关的页面。搜索引擎特指互联网上提供内容查询服务的网站,根据人们输入的查询内容查找索引数据库将找到的相关页面的链接提供给用户。随着山东大学办学质量的不断提高以及对校园信息化建设的逐步重视,学校迅速步入了一个信息化高速发展的阶段。在这个阶段中,学校的校园网正在不断的完善,给我校师生提供了一个良好的信息化教学,科研和管理平台。我校的教学、管理部门以及科研机构,都将步入完全的信息化时代。校内各种各样的信息将在校园网上发布,学校各项工作的效率将得到大幅提高。但是,随着校园网建设的迅速发展,校园网内的信息内容正在以惊人的速度增