1 / 8
文档名称:

浅谈搜索引擎地核心算法.doc

格式:doc   大小:42KB   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

浅谈搜索引擎地核心算法.doc

上传人:shijijielong001 2021/9/21 文件大小:42 KB

下载得到文件列表

浅谈搜索引擎地核心算法.doc

相关文档

文档介绍

文档介绍:实用标准文案
: .
浅谈搜索引擎的核心算法
外链是搜索引擎算法中, 判断网站权重高低的重要指标, 当用户在搜索框中输入关键时, 搜
索引擎面对大量拥有相同内容的网页, 首先需要解决的就是, 通过哪些参数觉得网页排名的
高低。今天,笔者就简单介绍外链建设中,比较有名的核心算法: PageRa nk算法、Hilltop
算法、Direct Hit 算法。
第一种算法、PageRa nk算法
1998年,Sergey Brin 和Lawrenee Page提出了 PageRank算法。该算法基于"从许多 |
优质的网页链接过来的网页,必定还是优质网页” 的回归关系,来判定网页的重要性。 该算
法认为从网页A导向网页B的链接可以看作是页面 A对页面B的支持投票,根据这个投票数 来判断页面的重要性。当然,不仅仅只看投票数, 还要对投票的页面进行重要性分析, 越是
重要的页面所投票的评价也就越高。 根据这样的分析,得到了高评价的重要页面会被给予较
高的PageRank值,在检索结果内的名次也会提高。 PageRank是基于对“使用复杂的算法而
得到的链接构造”的分析,从而得出的各网页本身的特性。
分析:PageRank算法的优点在于它对互联网上的网页给出了一个全局的重要性排序,
并且算法的计算过程是可以离线完成的, 这样有利于迅速响应用户的请求。 不过,其缺点在
于主题无关性,没有区分页面内的导航链接、 广告链接和功能链接等, 容易对广告页面有过
高评价;另外,PageRank算法的另一弊端是,旧的页面等级会比新页面高,因为新页面, 即使是非常好的页面,也不会有很多链接,除非他是一个站点的子站点。这就是 PageRa nk
需要多项算法结合的原因。
第二种算法、Hilltop 算法
HillTop,是一项搜索引擎结果排序的专利,是 Google的一个工程师 Bharat在2001
年获得的专利。HillTop 算法的指导思想和 PageRa nk是一致的,即都通过反向链接的数量 和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链 接对于搜索者的价值会更大,即主题相关网页之间的链接对于权重计算的贡献比主题不相关 的链接价值要更高。 在1999-2000年,当这个算法被Bharat与其他Google开发人员开发出 来的时候,他们称这种对主题有影响的文档为 “专家”文档,而只有从这些专家文档页面到
目标文档的链接决定了被链接网页“权重得分”的主要部分。
Hilltop 算法的过程:首先计算查询主题最相关的 “专家”资源列表;其次在选中的“专
家”集中识别相关的链接, 并追踪它们以识别相关的网页目标; 然后将目标根据非关联的指
向它们的“专家”数量和相关性排序。由此, 目标网页的得分反映了关于查询主题的最中立
的专家的集体观点。如果这样的专家池不存在, Hilltop 不会给出结果。
从Hilltop 算法过程可见,该算法包括两个主要的方面: 寻找专家;目标排序。通过对 搜索引擎抓取的网页进行预处理, 找出专家页面。对于一个关键词的查询, 首先在