文档介绍:捅要当前,互联网已经成为了人们获得信息的一个主要来源。而网页数量已经达到了百亿级,并且在以每日数百万网页的速度增长。由于其规模如此之庞大,用户在查询资料的时候,经常面对搜索引擎所返回的几百万甚至上千万网页,通常很难准确找到自己所需要的内容。因此,搜索引擎如何优化搜索的相关排序算法,如何在保证搜索速度和查全率的基础上,提高查准率,并且把最恰当的,最可信的链接放在返回结果的最前面就成为了互联网搜索的关键问题。基于此,本论文的主要研究内容和创新点如下:枋隽怂阉饕婧托畔⒓焖鞯母拍睿故玖说鼻暗闹髁魉阉饕娴南低架构,以及它们所使用的相关排序算法,随后对经典的信息检索相关排序算法模型进行了回顾。岢隽嘶诩尤ù势档男畔⒓焖飨嗨贫绕兰勰P突诟慕链接分析的文献检索系统相关排序算法,并且完成了它们的实验仿真。其中,模型是在信息检索领域内相似度模型中概率模型基础上,对文献的各个域引入了加权系数,并利用模拟退火算法估计出一组最优组合;而改进链接分析技术则利用到多种对象的排序结果南祝髡撸诳霭嫖。捎诒疚牡哪康闹皇墙⒁桓鲅跷南姿阉饕妫远运阉饕嬷的网页收集模块和如何利用开源工具包也作了说明。实验证明,在某一特定领域内的检索系统当采用改进型的检索相关排序算法后,会提高检索系统的查准率性能并且带来更好的用户体验。最后,对检索系统的相关排序算法和未来的垂直搜索引擎作了展望。在实验小组共同的努力下,我们完成了一个能够检索大约万篇学术文献的小型搜索引擎并且将研究内容应用其中。实验表明,此搜索引擎有较好的查准率和响应速度。关键词:信息检索,网络爬虫,相似度排序算法,超链分析枷耄梢缘中国科学技术大学硕士学位论文
知识水坝***@pologoogle为您整理
甌甌甌..,,,.’瓸,甀
知识水坝***@pologoogle为您整理
,瑆:瑆
至查璋作者签名:丛中国科学技术大学学位论文相关声明年日本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。本人授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。保密的学位论文在解密后也遵守此规定。
第一章绪论搜索引擎与信息检索悄壳叭蜃畲蟮摹⒆钣杏跋炝Φ男畔⑼纾!图书馆、商务场所、研究机构和其它组织中的局域网集成为一个单一的、庞大的、跨越全球的通讯网络。越来越多的人们利用这一网络与世界各地的人进行交流。如何利用网获取有价值的信息,已成为科研人员必备的一项基本且桓隹7判偷木薮蟮男畔⒆试纯猓涤猩锨蛱ㄒ陨系闹骰过亿的用户;并且由于因特网信息蕴含的无限丰富,信息组织、表达的直观、生动以及信息服务的方便性和多样性,愈来愈多的信息搜索者被其独特的魅力所吸引。而在近几年,没У氖扛浅杀兜卦龀ぁ?杉琁网检索已成为实际上最普及、最受关注、最常涉及的信息检索领域。它也成为人们获取信息的主要来源。先来回顾一下搜索引擎的发展历史】。年以前,没有任何人能搜索互联网。所有搜索引擎的祖先,是年由的大学的学生刮闯鱿郑缰形募浠故相当频繁的,,于是便有了。是第一个自动索引互联网匿名疚募某绦颍共皇真正的搜索引擎。年,互联网上出现了最早的榔鱉文闚瞥隽d榔鞯姆⒄勾偈筗得到迅速推广,站点数目以惊人的速度增加,人们再也不能用传统记忆方式来应付与日俱增的站点。为此,人们在索引擎中引入术。且桓瞿芤匀死辔薹ù锏的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的绦像蜘蛛样在网络间爬来爬去,因此,搜索引擎的绦虮怀莆程序。世界上第一个程序,是膚,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也技能。等发明的。虽然当时中国科学技术大学硕士学位论文
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在基础上,一些编程者将传统的蚬ぷ髟碜髁诵└慕F渖想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的是的年拢琒笱У牧矫┦可兰H搜钪略逗虳了。随着访问量和收录链接数的增长,目录开始支持简单的数据库搜索。因为的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。只抓取玌信息含量太小,很多信息难以单靠登宄阉餍屎艿汀惺章嫉