文档介绍:摘要于对网页信息的抓取过程中,该模式下如何减少无效网页的冗余,实现网页内容抓取的可控性。其次,对的主要功能模块进行了深入的研究分析,主要针此基础上概括出索引的建立过程,索引的结构,检索如何构造以及检索结理功能。并且在检索时为用户提供了默认的检索域,避免了多域检索带来的性能关键词:垂直搜索引擎本文首先简述了搜索引擎在如今信息时代的作用,并介绍了为满足专业化领域需求的垂直搜索引擎。其次对搜索引擎中的爬虫工具进行了深入的分析,研究了其工作过程、原理,就其提供的扩展接口给出了具体的实现模式,主要用对其在全文检索系统运用中所特有的优势进行讨论,并详细研究了其源代码,在果排序等核心机制的实现流程和原理。最后本文在对及分析的基础上,论述了构建一个具有全文检索功能的搜索引擎系统的设计思想。该系统最终实现对网站内数码相机信息的抓取以及实现产品检索功能。本文核心论述了如何以作为爬虫,通过对网站结构的分析,对进行功能扩展,达到提高信息的抓取效率的目的;并且利用建立了整个系统的索引和检索部分等检索的核心部分。针对系统的实际需求,定义了数据的封装对象,作为建立索引时对应的对象。针对中文分词存在的缺陷,引入了分词作为系统的文本分析器,实现了对中文的处损失。最后,还为系统的功能扩展预留了接口。
.甅甇淅琲瓵琫瑃嬲甌甪瓵:甀.,..’狝琂甌.
兰本人签名:丞堡日期堡五芝。筝创新性声明关于论文使用授权的说明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。名签人师本导●●
第一章绪论选题背景选题目的与意义搜索引擎是用于帮助互联网用户查询信息的搜索工具。它以一定的策略在互联域内,一些特定人群而言,能够提供一种针对人们特殊需求的搜索引擎服务就显擎的细化和延伸,他对网页内的信息进行了结构化的信息抽取,并进行了进一步现下,对于一些中小型检索服务,很多项目都需要搜索引擎的支持,目前大都一个网络蜘蛛的框架和全文检索系统的框架,可以方便快速的帮助我们进行一个全文检索系统的搭建。因此,通过与构建一个全文检索系统的实施方案,无疑为企业的中小型全文检索服务提供了一个自我快速定制检索系统的擎技术和搜索数据库服务提供商。如国外的旧聿⒉皇侵苯用嫦蛴没的搜索引擎,但向包括、、等在内的其他搜索引如今搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。随着网络的日趋发展,信息量的爆炸式增长以及内容和格式的不断翻新,传统意义上的通用搜索引擎已经不能满足各类用户的信息需求,特别是对一些特殊领得很有价值。垂直搜索引擎是针对某一个行业的专业搜索引擎,是对通用搜索引的加工处理而后再以搜索的方式满足用户的需求。采用镅允迪炙阉鳎墒怯龅饺募焖魇笔菘獾男阅芎退俣缺阄薹阋求,因此很多项目通过购买等公司的搜索服务,这样的做法不但昂贵,而且使得公司的信息安全性也得不到保障。与是一个完全由开发,并且开源的软件,它们分别提供了捷径。随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎提供全文网页搜索服务。理等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的
论文主要工作用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向:厥咏徊嬗镅约焖鞯难芯亢涂7一特定人群或某一特定需求提供的有一定价值的信息和相关服务。可以简单的说的成功,恰恰证明了互联网的格局应该是多方面的。通用搜索引擎的性质,决定本文就及相关的信息检索技术,对搜索引擎这一网络工具进行了深入的引擎。项目由一个小组共同完成,本文就本人的主要工作就行了论述,为下面几疚难芯亢吞致坌畔⒓焖骷际跫跋喙氐挠τ茫孕畔⒓焖鞯闹饕7绞揭约在此基础上归纳出信息检索系