1 / 9
文档名称:

搜索引擎算法.doc

格式:doc   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎算法.doc

上传人:xxj16588 2016/1/25 文件大小:0 KB

下载得到文件列表

搜索引擎算法.doc

相关文档

文档介绍

文档介绍:HITS算法是由康奈尔大学(CornellUniversity)的JonKleinberg博士于1997年首先提出的,为IBM公司阿尔马登研究中心(IBMAlmadenResearchCenter)的名为“CLEVER”的研究项目中的一部分。具体解释一个网页重要性的分析的算法。算法对返回的匹配页面计算两种值,一种是枢纽值(HubScores),另一种是权威值(AuthorityScores)这两个值是相互依存、相互影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在的页面的枢纽值之和。通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。Hits算法HITS(Hyperlink–InducedTopicSearch)算法是利用HubPAuthority的搜索方法,具体算法如下:将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(rootset),记为S,则S满足:(Authority)网页通过向S中加入被S引用的网页和引用S的网页,,以权威网页为顶点集V2。V1中的网页到V2中的网页的超链接为边集E,,用h(v)表示网页v的Hub值,且h(v)收敛;对V2中的顶点u,用a(u)表示网页的Authority值。开始时h(v)=a(u)=1,对u执行I操作,修改它的a(u),对v执行O操作,修改它的h(v),然后规范化a(u),h(v),如此不断的重复计算下面的I操作和O操作,直到a(u),h(v)收敛。其中I操作:a(u)=Σh(v);O操作:h(v)=Σa(u)。每次迭代对a(u)、h(v)进行规范化处理:a(u)=a(u)/Σ[a(q)]2;h(v)=h(v)/Σ[h(q)]2。HITS搜索引擎算法的研究理解HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS(Hypertext-InducedTopicSearch)算法是利用Web的链接结构进行挖掘典型算法,其核心思想是建立在页面链接关系的基础上,对链接结构的改进算法。[1]HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。首先,它完全将网页的内容或文本排除在外,仅