1 / 3
文档名称:

搜索引擎算法.docx

格式:docx   大小:11KB   页数:3页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎算法.docx

上传人:baba 2022/6/8 文件大小:11 KB

下载得到文件列表

搜索引擎算法.docx

相关文档

文档介绍

文档介绍:搜索引擎算法
HITS 算法是由康奈尔高校( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登探讨中心( IBM Almaden Research Cen搜索引擎算法
HITS 算法是由康奈尔高校( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登探讨中心( IBM Almaden Research Center) 的名为―CLEVER‖的探讨项目中的一部分。
详细说明
一个网页重要性的分析的算法。
算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Sc ores)这两个值是相互依存、相互影响的。所谓枢纽值,指的是页面上全部导出链接指向页面的权威值之和。权威值指的是全部导入链接所在的页面的枢纽值之和。
通常HITS算法是作用在肯定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一
个购物类的网页则不肯定。
在限定范围之后依据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定
义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
Hits算法
HITS(Hyperlink –Induced Topic Search) 算法是利用HubPAuthority的搜寻方法,详细算法如下:
将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为S,则S满意:


(Authority)网页
通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。
V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图.