文档介绍:武汉理工大学
硕士学位论文
搜索算法与搜索引擎的研究与应用
姓名:高凌
申请学位级别:硕士
专业:计算机应用技术
指导教师:熊前兴
20070501
摘要首先本文研究了分词的基本步骤,对分词的基本算法包括删算法、舅再次,本文研究了组成搜索引擎的基本模块——文本解析子系统,对文本最后,本文对上述系统进行了集成,并阐述构成一个完整的搜索引擎系统随着际醯姆伤俜⒄梗琁系淖试春托畔⒓彼倥蛘停绾未雍量信息中筛选出所需要的信息,并将信息按照其相关性排序,成为急需解决的问题。于是,为满足信息检索需求的搜索引擎技术便应运而生了。评价一个搜索引擎的两个指标是查全率和查准率。搜索引擎技术的探索才刚刚开始,许多问题亟待解决。随着系男畔⒉欢显龀ぃ匦畔⒑投网页已成为囊桓鲋匾W槌刹糠郑哉庖焕嘈畔⒌耐诰虮匦氪油缗佬衅的研究入手,从而提高搜索引擎的查全率。搜索引擎面临的另一个挑战是查准率飧鑫侍獾慕饩霾呗灾饕4臃执氏低车慕峁购头执算法改进入手,进而提高分词的精度。本文从构成一个搜索引擎的基本架构入手,分析了各个部分的结构及原理,设计了一个可扩展的搜索引擎。法、最佳匹配算法和蛔疃搪肪肚蟹炙惴ㄗ髁讼晗阜治觯壑ち送臣品椒ㄔ诖串粗分和深切分中的作用。在此基础上,本文提出了在深切分层引入图切分方法的观点;提出了在粗切分前进行浅层的未登录词识别,对传统的基本分词架构作出了改进;提出了新的分词算法,即涣肪端惴ā其次,本文对作了深入分析,研究了组成的三个模块:协议模块、处理模块和策略模块。随后研究了文档文摘算法和网页评级策略,最后设计了一个可行的网络爬行子系统。分析模块和索引器进行了探讨。的方法,为搜索引擎的研究和开发提供了一个可行的框架。关键字:搜索引擎。信息检索,爬行器,分词武汉理工大学硕士学位论文
,瓵,..,武汉理工大学硬士学位论文轗,猤...,琓琣:,.瑃%
琖武汉理工大学硕士学位论文...篠,
第滦髀课题的背景际醯姆⒄故购芏嗤骋远问酱嬖冢纬伤降摹耙豔网页”猈莨兰普獠糠滞呈渴钦鼍蔡琖页面的沿培训网报名须知”,执氏低场緕岚阉蟹治!扒把兀嘌担两个符合要求,而百度只返回了稣淦ヅ涞囊趁若手工对查询串分新词识别不佳的情况下,搜索引擎只会走向两个极端——过多匹配或过随着的高速发展,网络成为人们获取信息的重要途径。与此同时,信息量也随之急剧膨胀,准确迅速地找到信息已经成为人们迫切的需求。搜索引擎的出现在一定程度上满足了这些需求,同时也存在诸多不足。本章首先介绍了搜索引擎框架的研究背景,对构成搜索引擎的基本组件进行了描述,最后指出了论文主要研究内容与研究方向。据统计,到目前为止,嫌涤谐亿的静态网页和数以万亿的动态网页。这些网页中包含着大量的信息,如何快速准确地从海量数据中定位到有价值信息,是搜索引擎所要解决的问题。目前的搜索引擎主要存在以下不涵盖范围有限,目前搜索引擎例如,其检索的网页也只有亿左右【“,涵盖范围限制了搜索引擎的查全率。倍以上,而且有递增的趋势。目前搜索引擎尚未涵盖这部分数据。数据大量冗余导致用户查询的准确度低。由于搜索引擎处理中文的能力存在缺陷,使得搜索结果保留大量的噪声信息和冗余信息。例如查询“前网/报名/须知”,这样分词在语法上并没有错误,但搜索结果将会包含大量无关信息匀我馑承虬个词的页面都会被找出来4佑镆上来看,前述短语是两个词“前沿培训网”和“报名须知”的组合,用户查找的只是一个特定网站的报名须知。用上述短语对和百度进行测试,结果均难以令人满意,返回了个页面,其中只有词,百度则返回了篇,同样包含大量不符合要求的页面?杉武汉理工大学硕士学位论文足:
。其中是目前使用最广泛的搜索引擎,它支文搜索引擎,如百度、搜狐等。百度是目前国内最大的中文搜索引擎,索引页面达到千万,并且以每天几十万个页面的速度增长。百度与都搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎⒛柯妓饕嗨阉饕综上所述,如何正确、准确、快速找到信息,是搜索引擎发展的新课题。从年欧洲原子核研究中心研发出第一个“万维网”至今,搜索引擎技术经过了长足的发展,目前国外著名的搜索引擎有、等。亲罹叽硇缘幕谀柯嫉己绞降乃阉饕妫S没峁分类导航和关键词检索两类查询方式。虶蛑饕L峁┩缢索服务。它们依靠爬行器在献远阉飨略匾趁娌⒍砸趁娼兴饕没持种语言,提供了便捷的网上信息查询方法。通过对亿网页进行索引,可为世界各地的用户提供性能良好的检索服务。现在,每天提供大约诖尾檠瘛随着中文信息处理技术特别是中文分词技术的发展,出现了一些优秀的中采用相同的链接分析排名技术,但是的排名技术做得更好,相比之下百度最大的优势就是提供了搜索帮助,能根据用户提供的搜索关键词提出“相关搜索”,进一步协助用户提高查询的准确率。疍驮K阉引擎全文搜索引擎