1 / 41
文档名称:

【硕士论文】搜索引擎排序算法研究.pdf

格式:pdf   页数:41页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

【硕士论文】搜索引擎排序算法研究.pdf

上传人:fxl8 2013/4/19 文件大小:0 KB

下载得到文件列表

【硕士论文】搜索引擎排序算法研究.pdf

文档介绍

文档介绍:摘要
摘要
搜索引擎是现在最常使用的互联网应用之孀趴萍嫉姆⒄梗染龆
搜索引擎命运的网页覆盖率问题已经逐步得到解决。如何在这么大的资源库中,
快速找到并且返回用户真正需要的信息已经成为搜索引擎研究重点。一个好的
排序算法可以在为搜索引擎公司带来丰厚利润的同时,大大节约用户查找信息
的时间。
本文在充分研究搜索引擎排序算法的基础上,提出了一种利用浅层语法分
析和用户兴趣分类对搜索引擎的排序进行改进的方法。在用户提交查询以后,
系统首先利用条件随机场模型对用户的问句进行浅层语法分析,得到各个关键
字在问句中的角色,从而重新分配关键字之间的权重。同时,记录用户的浏览
信息,分析出用户的长期兴趣,短期兴趣和时段兴趣,影响网页的排序结果。
实验证明,上述方法可以有效的改善搜索引擎排序策略。
关键词: 排序算法;浅层语法分析;条件随机场;兴趣分类
第乱选题背景搜索引擎的发展历史随着科技的发展,互联网的时代已经到来,信息技术在发生着巨大的变化。互联网上的信息每年都以几何级数在增长。年眨泄チM缧畔中一诰┓⒉嫉巍吨泄チM绶⒄,半年来平均每分钟就新增近鐾瘢肽甑脑龀そ咏ツ耆甑脑龀ち浚チM占奥室泊锏搅%。目前我国上网计算机数达至万,比年末增长了蛱ā=刂月,中国网站数量已经达到蚋觯肽昴谠黾恿蚋觯晖谠黾了万个,,对于我们可以说既是机遇,又是一个巨大的挑战。不可否认,它是一个非常巨大的知识宝库,它包含着人们需要的各种各样的知识。但是对于我们来说,如何在这么大的信息库中找到我们需要的信息将是一个更大的挑战。搜索引擎正式在这样的背景下,应运而生的。通过搜索引擎,用户可以迅速在网络的信息海洋中定位自己要查找的信息。《报告》显示,在与互联网发展成熟的美国相比,搜索引擎还有非常大的发展空间。现代意义上的搜索引擎的祖先,是年由蒙特利尔大学学生发明的。虽然当时还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的骰校檠鹄捶浅2槐悖因此髟碛胂衷诘乃阉饕嬉丫芙咏揽拷疟境绦蜃远索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于深受用户欢迎,受其启发,美国内华达于年开发了另一个与之非常相似的搜索工具,=龃斡谛挛诺耐绲诙笥τ谩5牵大学
金资助开发,收录网页约万,利用教育网优势,有强大的却搜索功能。是搜索引擎史上又一个重要的进步。月日,数据量为,腖式发布。除了相关性排序外,固峁┝前缀匹配和字符相近限制,谝桓鲈谒阉鹘峁惺褂昧送匙远R#最大的优势还是它远胜过其它搜索引擎的数据量。从此搜索引擎进入了高速发展时期。雅虎,,等一批真正的商业化的搜索引擎开始投入使用。搜索引擎的技术也随着商业的驱使不断发展起来,搜索引擎包含的信息量也随着技术的更新而不断增大。年诞生的在、动态摘要、网页快照、、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,再一次永远改变了搜索引擎的定义,成为当今在国内,搜索引擎技术也不断发展。北大天网是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现难芯砍晒杀贝蠹扑慊低年初成立天网搜索引擎新课题组,由国家氐慊⊙芯糠⒄构婊钅炕又莶死中2┦在北京中关村创立了百度尽月发布甤搜索引擎版,年月日正式发布阉饕妗虽然只提供中文搜索,但它拥有最大的中文数据库。阉饕娴钠渌厣òǎ网页快照、相关搜索词、错别字纠正提示、新闻搜索、阉鳌⑿畔⒖斓菟索。曛泄阉饕媸谐〉鞑楸ǜ妗废允荆珻报告显示,在用户首选钣畔仁褂的搜索引擎中,百度首选市场份额,∈谐》荻钍%。【垂直搜索是近几年兴起的一种新的概念。垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信引文件外,已能检索网页。的獼膕绦蚪尤氲狡渌饕绦蛑校唇薒。年世界上搜索引擎市场占有率最高的搜索引擎。【络与分布式系统研究室开发,于年月日正式在上提供服务。年拢捶治鲎ɡ⒚魅恕⑶癐噬罟こ淌钛搴暧牒糜研煊息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网第乱
课题研究的意义页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式