1 / 50
文档名称:

基于Nutch的分布式搜索引擎的设计与研究.pdf

格式:pdf   页数:50
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Nutch的分布式搜索引擎的设计与研究.pdf

上传人:quality 2014/2/12 文件大小:0 KB

下载得到文件列表

基于Nutch的分布式搜索引擎的设计与研究.pdf

文档介绍

文档介绍:长春理工大学
硕士学位论文
基于Nutch的分布式搜索引擎的设计与研究
姓名:时延军
申请学位级别:硕士
专业:计算机软件与理论
指导教师:杨华民
20100301
摘要于数据块动态分配的策略,从而实现了文件的分块存储,同时改进了莶集子系统的任务调度策略和存储支持,并在该存储上执行并行计算,有效地平衡了本文建立了动态块分配机制的数学模型,并给出了计算公式,同时基于开源魑W酉低炒娲⒅С牛隽烁慕鳱的数据采集予系统构设计模型,并实现系统的集成。通过实验对比的方式,对阉饕嫦低掣慕昂蠓直鸾信渲貌⒃诵校收集测试结果数据。实验结果表明,数据块动态分配能够平衡计算集群中各个节点执行任务数和执行任务时间,从而改善了整个系统压力分布,实现了负载均衡。关键词:搜索引擎数据采集平衡负载基于T此阉饕婵蚣埽疚亩云渌诘腍教ㄌ岢隽艘恢只集群的负载。块动态分配
瑃,瓵琣,
储签名:越迎年立月作者签名:鲢延至趣旦年互月望日幽型年互月净日长春理工大学硕士学位论文原创性声明长春理工大学学位论文版权使用授权书文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写式标明。本人完全意识到本声明的法律结果由本人承担。权使用规定”,同意长春理工大学保留并向中国科学信息研究所、中国优秀博硕将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印本人郑重声明:所呈交的硕士学位论文,《基于姆植际剿阉饕娴设计与研究》是本人在指导教师的指导下,独立进行研究工作所取得的成果。除过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方本学位论文作者及指导教师完全了解“长春理工大学硕士、博士学位论文版士学位论文全文数据库和系列数据库及其它国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权长春理工大学可以或扫描等复制手段保存和汇编学位论文。导师签名:
。面对浩如烟海的互联网数据,人们日益所关心的问题是,如何能够迅速、便捷地丰富和多样化,但最终的目的都是以用户为中心。当普通用户或具有专业领域知识的索意图的结果返回并展现给用户,这也体现了搜索引擎系统的最终目标一一提供优质储模型和计算模型的研究是迫切的。当考虑使用一种基于良好数据组织的存储方案后,并决定选择以该存储平台作为基础,则选择的计算模型是否合适,能够在某种程度上影响到搜索引擎系统的工作效率,从而影响到搜索服务所面向的广大人群。搜索引擎所涉及的技术多种多样,在当前信息化时代,全世界对信息的需求也日网络技术的飞速发展,信息容量的急剧膨胀,极大地改变了人们对各种信息的需从海量数据中获取到有价值的信息,以能够满足个性化的需要。搜索引擎的出现极大地缓解了这种矛盾,它是一种在系挠τ萌砑低尝螅芄话凑找欢ǖ牟呗栽互联网上发现并采集信息,从而采用适当的手段来对萁蟹治觥⒊槿⒆橹进而经过加工处理,存储到一个结构化的数据库,即索引数据库,然后基于这个索引数据库,向用户提供查询接口以实现信息的检索,以满足实际的需要。.芯磕康随着数据挖掘与分布式技术的不断发展,实现搜索引擎系统所涉及的技术也变得用户提交搜索请求以后,系统能够最好地服务于这些用户,亦即通过系统将最符合检的检索服务。目前,如何从互联网这个庞大的信息资料库中获取数据,并进行有效地处理被认为是搜索技术的核心竞争点。所以,分布式技术被很好地应用到该领域,因为基于分布式技术构建的搜索引擎系统,能够基于其分布、并行等特点,有效地处理海量数据,并提供分布式检索服务,较好地解决了以往面临的种种问题随着应用的规模不断扩大,用户的需求越来越高,如何使搜索引擎系统稳定工作并持续地提供服务,又能够更好地满足用户的需要,这都是非常重要的。例如,像和百度这样的搜索服务供应商,他们所运营的搜索引擎系统需要面对的是数以亿计的全球用户,因此处理的数据是海量的,应用的规模也是无比巨大的,
国内外研究现状渐多样化。人们要获取想要的信息,需要通过从无边无际的互联网上挖掘出来,能够满足用户的信息就是有价值的数据,而搜索引擎恰好与这项需要紧密相关。研究搜索引擎的最终目标是,以使用搜索服务的用户为中心,以满足用户检索需求为目标,以提高搜索服务质量为宗旨,以强有力的分布式计算技术为后盾支持,辅以各种其它技术,像数据挖掘、并行计算等,通过精心设计改进搜索引擎系统,提高正值云计算时代刚刚兴起,框计算也崭露头角,研究改进分布式搜索引擎系统,按照体系结构的不同,搜索引擎可以分为集中式搜索引擎和分布式搜索引擎两大基于操作系统目录结构的设计特点实现的目录搜索引擎,如早期的。基于其它已经上线的搜索引擎系统实现的元搜索引擎,例如,美国大学开发的基于鏊阉饕娴腜,的元搜索引擎..梢源最初,互