1 / 52
文档名称:

信息检索20-链接分析.ppt

格式:ppt   大小:1,184KB   页数:52页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

信息检索20-链接分析.ppt

上传人:相惜 2020/10/20 文件大小:1.16 MB

下载得到文件列表

信息检索20-链接分析.ppt

相关文档

文档介绍

文档介绍:第20讲链接分析LinkAnalysis2017/10/:Hub节点&:Hub节点&Authority节点提纲.*基本的采集过程初始化采集URL种子队列;重复如下过程:从队列中取出URL下载并分析网页从网页中抽取更多的URL将这些URL放到队列中这里有个“Web的连通性很好”***Mercator采集器(待采集URL缓冲池).7*本讲内容锚文本:Web上的链接相关信息为什么对IR有用?HITS:另一个著名的基于链接分析的排序算法(IBM)PageRank:一个著名的基于链接分析的排序算法(Google)引用分析(Citationanalysis):PageRank及其他基于链接排序方法的数学基础.*Web可以看成一个有向图假设1:超链接代表了某种质量认可信号超链d1→d2表示d1的作者认可d2的质量和相关性假设2:锚文本描述了文档d2的内容这里的锚文本定义比较宽泛,包括链接周围的文本 例子:“Youcanfindcheapcars˂ahref=http://…˃here˂/a˃.”锚文本:“Youcanfindcheaphere”.