文档介绍:论文作者签名:型整辇——日期:日期:沙/沙、∥。≯釜焕迹篬:三‘关于学位论文使用权的说明力口/≯./.≯本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的本人完全了解太原理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内导师签名:法律责任由本人承担。容C苎宦畚脑诮饷芎笞袷卮斯娑。签声明名:曰期:
霹黼攀囊黔耄、.
基于姆植际剿阉饕娴难芯坑胧迪摘要越来越多的学者倾向于认为搜索引擎是一个集信息检索、互联网服务、用算系统的体系结构,对平台的植际奖喑棠J揭约结构的建立、中文分词算法、多格式文档解析以及页面评分算法等关键技系统的模块划分及各自功能,并对分布式搜索引擎的结构进行了详细设计。第三,使用编程语言,完成了分模块的具体分布式实现,并通过搜索引擎是人们在当今信息飞速增长的时代所不可缺少的一个工具,户行为分析以及高性能与分布式计算等多个重要研究方向为一体的综合性平台。如何从互联网这个拥有海量资料的信息库中获取数据,进行高速有效地处理并为用户返回精准的信息被认为是搜索引擎技术发展的核心。为了保护商业机密,现有各大商业搜索服务提供商对其核心技术严格保密,加大了研究搜索引擎的难度。本文在对搜索引擎的流程和原理以及喑棠P徒邢晗阜析的基础上,结合全文索引等开源工具包,构建了一个分布式搜索引擎系统,利用此系统不仅可以展开对搜索技术的研究,而且在一定程度上改进了现有搜索引擎的性能。本文的研究工作包括以下几个方面:第一,分析了通用搜索引擎的原理和信息处理流程,描述了分布式计分布式文件系统进行了详细分析,并以此为基础提出了分布式搜索引擎的架构。第二,分析了网络爬虫系统的原理及其分布式实现方法,对全文索引术进行了研究,提出了利用网络爬虫进行分布式多线程爬取、多格式文档解析以及对页面评分算法进行分布式改造的方法,确定了分布式搜索引擎太原理工大学硕士研究生学位论文
评分算法实验室集群对系统的性能进行了测试,验证了系统设计的可行性。最后,总结了本文的研究工作,并对未来可能实施的研究内容进行了讨论。关键词:搜索引擎,分布式计算框架,分布式文件系统,倒排索引,页面太原理工大学硕士研究生学位论文
弧!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!..瑆甌,,瓼瑆疭,.瑃—
一—————————————————一—————————一一—————————————————~.篠,琈甧,,產’瓵瑆。.瑃太原理工大学硕士研究生学位论文’.,
目录第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯课题的研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.搜索引擎发展历史与研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯课题研究的目的和意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本文的主要工作与文章结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一搜索引擎基本功能⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.通用搜索引擎的基本原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..畔⒉⒃⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯中的分布式文件系统⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..分布式搜索引擎的处理流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第三章分布式搜索引擎系统设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯分布式搜索引擎设计目标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯分布式爬虫系统设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.∧???樯杓啤分布式索引系统设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯太原理工大学硕士研究生学位论文.
.募焖骷际醺攀觥全文索引工具包⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...贚乃饕蒲芯俊中文分词技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.