1 / 45
文档名称:

分布式搜索引擎缓存设计及优化.pdf

格式:pdf   页数:45页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分布式搜索引擎缓存设计及优化.pdf

上传人:cherry 2014/3/4 文件大小:0 KB

下载得到文件列表

分布式搜索引擎缓存设计及优化.pdf

文档介绍

文档介绍:辨言却童天肇硕士研究生学位论文主£簋扭整堂生蓝盔堂院王盟盐盐簋扭吞谜瞪密煞里主教授密级::姓名:专业:导师:院:年月日.
分布式搜索引擎缓存设计及优化摘要搜索引擎一般由椰⑺饕狻⒓焖髌骱陀没Ы涌谧槌伞互联网是个巨大的信息资源库,从这个资源库中提取和检索出有用信息是个很重要的课题。搜索引擎是通用的信息检索服务。从舷略匾趁妫悍治銎鞫韵略匾趁娴哪谌萁蟹治鲆杂糜诮⑺饕核引器将文档表示为一种便于检索的方式并存储在索引数据库中:检索器实现用户查询关键词和目标文档匹配度的计算:用户接口为用户提供一个输入查询请求,定制查询结果的趁娌⒔ú檠峁袷交蠓祷馗器。由于搜索引擎处理的对象是十分庞大的数据量,同时互联网的结构是分布式的,搜索引擎设计成分布式并行处理的系统同时用若干机器协同计算处理,分布式并行的方法可以取得更好的性价比。本文论述构建一种基于分布式并行计算技术的阉饕婺P图芄埂2捎梅植际讲⑿斜喑棠式,选用了任务分发模式。在并行编程中线程是流行的模型,在并行计算上采用的编程模型。消息传递对分布式的并行编程是有效的,在分布式计算的消息传递上采用膕ㄐ欧绞健在阉饕娴纳杓粕希饕B凼隽嘶捍嬗呕南喙丶际酢;捍嫔杓的好坏直接影响搜索引擎的相应速度,本文论述了一种搜索引擎缓存的设计方法。关键词:搜索引擎、分布式、优化、性能北京邮电大学硕士学位论文分布式搜索引擎援存设计及优化
戚删蝴咖緄删畂鰍觚蟭瞖∞浚西曲韇辒删删∞醗【’哦簁锄淞鑞琔韍翩西,緇脓咖、,甽,鏸,妊醯。埘,’、】海篽⌒蘤砍磅齝耐鷗6阨岫萨’赫玎;毛琒∞”阳柑窖尊襭№柰衕╤隝挂鮩!疽ㄇ鷕郴也琱培網琁,甜瓹暇蘯鐃科,ⅱ鬳,.簑鵤琺’磒蹦趇北京邮电大学硪士学位论文分布式搜寮引擎缓存设计及优化
第乱什么是搜索引擎搜索引擎产生的背景和发展历史阉饕撬孀舧信息的迅速增加,从年开始逐渐发展起来的技术。实际上,搜索引擎是指因特网上专门提供查询服务的一类网站,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。用户的查询途径主要包括自由词、全文检索、主题词检索、分类检索及其它特殊信息的检索笠怠⑷嗣⒌缁盎页等目前搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。随着信息技术的不断发展,特别是互联网应用的迅速普及,电子信息爆炸似的丰富起来。目前仅收录的网页就超过亿,并且每天全球互联网网页数目以千万级的数量增加。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。工欲善其事,必先利其器。要在浩瀚的网络信息海洋中自如冲浪,搜索引擎己成为必不可少的利器。白昶鹬两瘢樗孀乓蛱赝娜找娣⒄棺炒笠约皐信息量的迅速膨胀,阉饕婕际跷A瞬欢下闳嗣嵌詗信息检索的需求,已经经历了三代发展阶段:第一代搜索引擎出现于年,以集中式检索为主要特征。这类搜索引擎一般都索引少于偻蚋鐾常僦匦滤鸭巢⑷ニ⑿滤饕6移浼焖魉俣确浅慢,一般都要等待秒甚至更长的时间。在实现技术上也基本沿用较为成熟的、网络、数据库等技术,相当于利用一些己有技术实现的一个系挠τ谩T月到拢缗莱鎤平均每天承受大约次查询。第二代搜索引擎系统大约出现在年,大多采用分布式检索方案,即多个微型计算机协同工作来提高数据规模、响应速度和用户数量。它们一般都保持一个大约蛲车乃饕菘猓刻炷芄幌煊千万次用户检索请求。年月,当时最先进的几个搜索引擎号称能建立从偻虻亿的北京邮电大学硕士学位论文分布式搜索引擎缓存设计及优化
搜索引擎的分类厚最茜分类搜索烈雾索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,⒌淖橹椒掷的下面分设若干二级,三级类目,甚至十几级类目。优秀的网站目录经常设有“交网页索引。阉饕嫔扑敲刻齑蟾乓3惺千万次查询。第三代搜索引擎系统出现在年到年期间,这一时期是搜索引擎空前繁荣的时期。第三代搜索引擎的发展有如下几个特点:饕菘獾墓婺<绦龃螅话愕纳桃邓阉饕娑急3衷诩盖蛏踔辽弦个网页艘话阋庖迳系乃阉饕酝猓J汲鱿种魈馑阉骱偷赜蛩阉鳌:芏嘈⌒偷拇直门户站点开始使用该技术。捎谒阉鞣祷厥萘抗螅焖鹘峁喙囟绕兰鄢晌Q芯康慕沟恪O喙氐难究又可以分为两类:一类是对超文本链的分析,在这方面始于大学的系统作出了很大的贡献:另一类是用户信息的反馈,系统采用的就是这种方法。J际褂米远掷嗉际酢虸的都在一定程度上使用了该技术。进入新世纪以后,随着信息多元化的增长,千篇一律的给所有用户同一个入口显然己经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要