1 / 35
文档名称:

网页排序算法.pptx

格式:pptx   大小:695KB   页数:35页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网页排序算法.pptx

上传人:liangwei2005 2021/7/26 文件大小:695 KB

下载得到文件列表

网页排序算法.pptx

文档介绍

文档介绍:网页排序算法
Pagerank
Hits
Hilltop
TrustRank
硕0032班 3110082019
1
Pagerank
pagerank对网页的重要性进行客观的测定。PageRank 会将网页 A 上指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票,而不是计算直接的链接数。
PageRank 也会考虑发出投票的每个网页的重要性,也就是某些网页的投票具有的价值较大,为该链接的页面赋予的价值因而也就较大。 重要的网页会得到较高的 PageRank,并出现在搜索结果的顶部。

Google 的技术是利用网络中的综合信息来确定网页的重要性。 因为没有人工干涉,也不对结果进行操纵,所以用户一直信任 Google 是一个不会因付费而影响排名的客观信息来源。
2
PageRank的大小取决于三个因素:
链入网页数
链入网页的质量
链入网页的链出网页数
PageRank
3
PageRank的大小取决于三个因素:
链入网页数
链入网页的质量
链入网页的链出网页数
PageRank
4
矩阵表示
页面的重要性由链向它的页面的重要性决定
页面i的重要性
指向页面i的页面集
页面j的出链
页面j的重要性
5
计算
PR(A)=(1-d) + d*(PR(T1)/C(T1)+…+ PR(Tn)/C(Tn))
d: 阻尼系数, .
一个用户不用通过键入URL地址 ,而是点击链接的概率
T1, …, Tn: 指向页面A的页面集
PR(A): 页面A的权威值.
PR(Ti): 页面Ti的权威值.
C(Ti): 页面Ti的出链.
6
Example of Calculation
Page A
1
Page C
1
Page B
1
Page D
1
1*
1*
1*
1*
1*
7
Example of calculation
经过20 次迭代:
Page A

Page C

Page B

Page D

8
Pagerank的问题
PageRank算法中对于向外链接的权值贡献是平均的,不考虑不同链接的重要性。
,也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。
,很少有WEB网页指向其竞争领域的权威网页。
9
Hits
HITS是英文Hyperlink-Induced Topic Search 的缩写意译为超链引导主题搜索。HITS 算法由Jon Kleinberg 于1997 年提出,并申请了专利。
其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息。具有计算简单且高效的特点。
Hits算法认为对每一个页面应该将其内容权威度(authority)和链接权威度(hub)分开考虑,在对网页内容权威度做出评价的基础上再对页面链接权威度进行评价,然后给出该页面的综合评价。
10