文档介绍:大连理工大学
硕士学位论文
高扩展性搜索引擎设计与实现
姓名:陈萌
申请学位级别:硕士
专业:软件工程
指导教师:田园
20060604
要摘用搜索引擎,并通过向网络中添加更多的来达到扩展系统数据处理规模的目的。其目标关键词:搜索引擎;分布式系统;分词在网络普及的时代,搜索引擎已经成为人们获取信息的一个重要工具。但是其数据全部由搜索引擎商处理,其优势是可以控制全部数据:劣势就是不能部署在小型计算单元上,因此导致很多市场不能进入,而桌面搜索就是搜索引擎商向小型化发展的证明。本文目的是设计并实现一个可用的、有足够弹性、方便扩展的基于分布式网络的通市场是部署于企业,网站内部的通用搜索引擎。在经过对搜索引擎工作原理的分析之后,得出了一个解决方案,并在此基础上进行了架构上的拓展,得到了一个极具弹性的方案,各个算法的实现都可以通过插件方式随时插入系统,而实现对系统的升级。而分布式的数据系统更是给予了系统规模足够的弹性使其可以胜任从级到级的各种大小的数据库的运作。整个系统使用类似的方式构建,各个服务组件单独编写,并通过配置文件由系统托管部件加载进系统,经过初始化之后作为系统组件运行。在算法上,由于所使用的算法的复杂度问题,排序算法的静态权值计算算法没有使用,而是通过放置一个桩来使静态权值可以工作。而为了达到足够的运行速度,系统添加了很多要素如关键字缓冲。在搜索引擎的另一个热点自然语言分析方面,也进行了一定的试验和研究,并构造了一个简单分词系统来帮助爬虫油缟匣袢∈莸程序绦蛱岣咄掏铝俊M狈执室脖挥τ玫焦丶制ヅ渲小系统的运行基本达到设计目标,从单台到多台构成的网络都能很好的运行。其较好的扩展性为向系统中添加功能提供了极大的方便。大连理工大学专业学位硕士学位论文
.....甌,,,..,..琧痶..’,甌;;
独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。
登雪导师签名:邋玉塑蛰竺生年』月羔日大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论作者签名:大连理工大学硕士研究生学位论文文。
髀需求分析魈庀喙匦郧,但是缺点也很明显——必须使用手工分类。这导致了其更新速度过速度。而且其速度较慢的问题通过种种方法已经得到解决——我们在使用、为桌面应用,不适合企业应用。这类搜索引擎较多,可以通过各种方式获得,这里不再信息。与此同时,这些系统也为搜索引擎商提供了不小的广告收入——访问量大意味着、丫晌J褂眉扑慊袢⌒畔⒉豢扇鄙俚囊桓龉ぞ撸嵌际峭ㄓ搜索引擎,提供全文检索服务,全文检索就是在大量的数据中查找符合我们需要的内容一种方法。当然,现在随着竞争,这些通用搜索引擎也提供其它一些相关的搜索服务如文件检索搜索传统的搜索引擎分为三大类:髯茨柯挤瘢ü畔⑹止せ蜃远峙涞侥承┲魈饽柯枷拢佣诩焖飨应的主题的时候就可以检索到相应的信息。这种方法的优点是检索速度快,简单,准确慢,维护成本较高。这一类的典型代表就是。募焖饕妫庵炙阉饕娌⒉唤邢晗傅闹魈夥掷啵峭ü治瞿容的主题相关性来判断是否符合要求。相对于目录检索,搜索速度变慢,实现复杂,准确性受理论限制。其优点在于可以完全使用计算机来处理,更新速度取决于计算机处理的时候感觉不到搜索过程有多么的复杂,速度有多慢,同样是很短的时间就完成了。而准确性,由于自然语言识别方面目前存在着理论问题,所以其主题相关性相对较差,相关的提高主题相关性的研究也在进行中。而的算法⋯.【随着逐渐被人们熟悉,各种作弊方法也越来越多,其权威性已经受到质疑。褂蒙鲜隽街炙阉饕娴乃阉鹘峁倬约旱拇砣缓笊山峁涑觥U种搜索引擎速度和准确性往往表现较好,但由于其核心技术并不是自己掌握,只适合作列举。目前,各大搜索引擎运营商都在扩展搜索引擎的搜索领域,如阉鳌⒌缱拥图等。其中有一些可以通过在之前的系统上进行扩展或修补就能够实现,如阉鳎而电子地图等则是单独的一套系统。这些各式各样的搜索系统大大方便了人们上网查找更多的人看到广告,意味着更好的广告效果。简单的说,比如电子地图,其中的一些信息不是必须添加的,如酒店的位置。那么,添加这些信息就需要酒店付费,使得其在电子地图上出