1 / 12
文档名称:

四个著名的搜索引擎算法.doc

格式:doc   页数:12页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

四个著名的搜索引擎算法.doc

上传人:xxj16588 2016/3/23 文件大小:0 KB

下载得到文件列表

四个著名的搜索引擎算法.doc

相关文档

文档介绍

文档介绍:四个著名的搜索引擎算法搜索引擎算法一: TrustRank 算法 TrustRank 是近年来比较受关注的基于链接关系的排名算法。 TrustRank 中文可以翻译为信任指数。 TrustRank 算法最初来自于 2004 年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于 2006 年申请专利。 TrustRank 算法发明人还发表了一份专门的 PDF 文件, 说明 TrustRank 算法的应用。 TrustRank 算法并不是由 Google 提出, 不过由于 Google 所占市场份额最大, 而且 TrustRank 在 Google 排名中也是一个非常重要的因素, 所以有些人误以为 TrustRank 是 Google 提出的。更让人糊涂的是, Google 曾经把 TrustRank 申请为商标,但是 TrustRank 商标中的 TrustRank 指的是 Google 检测含有恶意代码网站的方法,而不是指排名算法中的信任指数。 TrustRan k 算法基于一个基本假设: 好的网站很少会链接到坏的网站。反之则不成立, 也就是说, 坏的网站很少链接到好网站这句话并不成立。正相反,很多垃圾网站会链接到高权威、高信任指数的网站,意图提高自己的信任指数。基于这个假设, 如果能挑选出可以百分之百信任的网站, 这些网站的 TrustRank 评为最高, 这些 TrustRa , nk 最高的网站所链接到的网站信任指数稍微降低, 但也会很高。与此类似, 第二层被信任的网站链接出去的第三层网站, 信任度继续下降。由于种种原因, 好的网站也不可避免地会链接到一些垃圾网站,不过离第一层网站点击距离越近, 所传递的信任指数越高, 离第一级网站点击距离越远, 信任指数将依次下降。这样, 通过 TrustRank 算法, 就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网站的可能性就越大。计算 TrustRank 值首先要选择一批种子网站,然后人工查看网站,设定一个初始 TrustRank 值。挑选种子网站有两种方式, 一是选择导出链接最多的网站, 因为 TrustRank 算法就是计算指数随着导出链接的衰减。导出链接多的网站,在某种意义上可以理解为“逆向 PR值”比较高。另一种挑选种子网站的方法是选 PR 。值高的网站,因为 PR 值越高, 在搜索结果页面出现的概率就越大。这些网站才正是 TrustRank 算法最关注的、需要调整排名的网站。那些 PR 值很低的页面,在没有 TrustRank 算法时排名也很靠后,计算 TrustRank 意义就不大了。根据测算, 挑选出两百个左右网站作为种子, 就可以比较精确地计算出所有网站的 TrustRank 值。计算 TrustRank 随链接关系减少的公式有两种方式。一是随链接次数衰减, 也就是说第一层页面 TrustRank 指数是一百的话, 第二层页面衰减为 90 ,第三层衰减为 80 。第二种计算方法是按导出链接数目分配 TrustRank 值, 也就是说一个页面的 TrustRank 值是一百, 页面上有5 个导出链接的话, 每个链接将传递 20% 的 TrustRank 值。衰减和分配两种计算方法通常综合使用,整体效果都是随着链接层次的增加, TrustRank 值逐步降低。得出网站和页面的 TrustRank 值后,可以通过两种方式影响排名。一是把传统排名算法挑选出的多个页面, 根据 TrustRank 值比较, 重新做排名调整。二是设定一个最低 TrustRank 值门槛, 只有超过这个门槛 TrustRank 值的页面, 才被认为有足够的质量进入排名, 低于门槛的页面将被认为是垃圾页面,从搜索结果中过滤出去。虽然 TrustRank 算法最初是作为检测垃圾的方法, 但在现在的搜索引擎排名算法中, TrustRank 概念使用更为广泛, 常常影响大部分网站的整体排名。 TrustRank 算法最初是针对页面级别, 现在在搜索引擎算法中, TrustRank 值也通常表现在域名级别, 整个域名的信任指数越高,整体排名能力就越强。搜索引擎算法二: Google PR PR是 PageRank 的缩写。 Google PR 理论是所有基于链接的搜索引擎理论中最有名的。 SEO 人员可能不清楚本节介绍的其他链接理论,但不可能不知道 PR。 PR是 Google 创始人之一拉里佩奇发明的, 用于表示页面重要性的概念。用最简单的话说就是, 反向链接越多的页面就是最越重要的页面, 因此 PR 值也越高。 Google Pr 有点类似于科技文献中互相引用的概念, 被其他文献引用最多的文献,很可能是比较重要的文献。 PR 的概念和计算我们可以把互联网理解为由节点及链接组成的