1 / 3
文档名称:

基于层次分类的页面排序算法.pdf

格式:pdf   大小:105KB   页数:3页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于层次分类的页面排序算法.pdf

上传人:q1188830 2022/3/1 文件大小:105 KB

下载得到文件列表

基于层次分类的页面排序算法.pdf

相关文档

文档介绍

文档介绍:年 月
第 33 卷 第 11 期 计 算 机 工 程 ch has good scalable performance.
【Key words】Search engine; Hierarchic classification; PageRank
早期的搜索引擎主要是基于关键字匹配的,用 Salton 提 (1)超文本链接包含了用户对一个网站的判断信息;
出的向量空间模型(VSM)进行特征表示,用 TF-IDF 算法 (2)对一个网站而言,如果其他网站链接到该网站的入链
进行特征项赋权,用倒排文档进行索引,用余弦夹角进行距 数越多,该网站越重要。
离度量。在以 TF-IDF 算法为基础的搜索引擎中,只有包含在 以上假设在各种基于链接分析的算法中都以某种方式体
网页中的关键字作为索引项被应用到向量空间模型中。然而 现出来。以下简要分析 PageRank 和 TSPR 算法的特点及不足。
网页之间存在独有的超链结构,链接的文本通常在内容上就 PageRank 算法
代表了被链接文档的一部分信息。网页这种独特的超链结构 PageRank 算法的基本思想:如果网页 T 存在一个指向网
在传统的向量空间模型中没有被利用,导致传统的向量空间 页 A 的链接,则表明 T 的所有者认为 A 比较重要,从而把 T
模型查询的精确度不高。 的一部分重要性得分赋予 A。这个重要性得分的值则由 T 的
Sergey Brin和Lawrence Page在 1998 年提出了PageRank[2] PageRank 值 PR(T)和 T 的出链数 C(T) 决定。对页面 A,其
算法开启了链接分析研究的热潮。基于链接分析的算法,提