文档介绍:互联网噪链的识别过滤研究上的应用及其在让篡扭型堂撞苤堂院专让篡扭筮世砺擅馥遗攻读学位:堡堂亟±指导教师:数援指导小组成员:院系:业:作延里者:互联网噪链的识别过滤及其在复且人学硕十学位论文
.撕沉粼ァ甁目Ⅳ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。本文工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第二章背景知识和相关工作背景知识⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第三章自动识别与过滤噪链.!;卜颜⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。噪链过滤⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯评价方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..换诙ɑ侯瘫犁肯扒谧啊相关工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯启发⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.聚类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..显炔K狻第四章实验数据与分析⋯。数据集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.掳椭蟆芯可系挠τ互联网噪链的识别过滤及其在:甹⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.:簀复旦大学硕士学位论文
.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.谶镱绻暧ㄓ凹睢!第六章总结与展望附录一硕士期间发表的论文附录二第五章褂玫闹肿诱镜闶参考文献第五章过滤应用数据集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..比较算法⋯⋯⋯⋯⋯⋯⋯:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.评价方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.趔宏髟析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯。⋯⋯⋯⋯⋯...
摘要目前基于链接关系的排序算法在互联网搜索引擎中占据着至关重要的作用。这类算法的提出是以“链接即投票”的假设为前提的。但是随着互联网商业化发展十几年来,这种假设已经不是万能的了。网页与网页之间不再是“投票”的关系,有各种各样其他角色的链接丛肓充斥其中,噪链的存在降低了基于链接的排序算法的准确性,如何识别和处理这些噪链是当今国外研究的新热点。本文根据噪链本身的分布特性,提出了一种只基于链接关系就能自动识别和过滤噪链的方法,并进行了详细的真实数据集实验验证,结果表明该方法对噪链的识别和过滤非常有效,而且提高了基于链接关系的排序算法的准确性,,我们进一步把这种方法应用在难芯可稀Mü夤ǹ5公用数据集验证,我们过滤了大多数站点,相比一些比较著名的算法来看,我们的方法也非常有竞争力。从而验证了识别和过滤噪链的方法在究上应用的可行性。关键词:搜索引擎;排序;噪链;鶶;互联网中图法分类号·互联网噪链的识别过滤及其在芯可系挠τ复且大学硕十学位论文.
;、甌,—;研究上的应甩甧...,,””瓹:;籒互联网噪链的识别过滤及其在,.眑’’.瑃瓵瓾..复旦人学硕士学位论文篴.
第一章绪论研究背景今年是国际互联网苣辏某鱿殖闪巳死嗌缁崂贩⒄进程中的另一座里程碑。有人认为,它是继工具的使用、蒸汽机的出现之后第次技术和社会革命,是继工具、机器之后第三种将使人类文明发生突变的因素【。不管怎样评价,互联网确实极大地改变了现代人的生活方式,人们从来没有可以如此不分地域时差地互相沟通和联系,从来没有如此自由地表达自己的观点和思想,更重要的是,从来没有如此便捷迅速地获取信息与知识。而后搜索引擎的出现则为人们提供了一个对整个互联网进行快速检索的服务,使人们能够在茫茫互联网快速准确地找到自己要找的信息。搜索引擎的成功甚至改变了人们上网的习惯。很多人都将搜索引擎设为浏览器的主页作为自己上据中国互联网信息中心⒉嫉年中国搜索引擎用户行为研究报告》,与年底相比,搜索引擎的用户增长了万人,,搜索引擎在全国网民中的使用率为%,在各种互联网应用中位列第四。随着搜索引擎的索引量越来越大,对用户查询返回的结果也越来越多,但与此同时,用户却一般只会看前个结果。因此,这前个结果与用户查询的相关程度是搜索引擎成功的关键所在。而索引量越大却使这个目标的困难越大