文档介绍:维普资讯
自动化用络化数字化
超链分析及应用
口向桂林
摘要文章分析了传统的基于文本处理的信息检索算法在处理页面时遇到的问题,
糟出在处理页面时,应分析页面中超链的意义,给出了超链分析在网络爬行和检索姑果
排序两个方面的应用及相应的算法。
关键词页面超链分析信息检索
传统信息检索方法遇到的问题词语来表达文献的内容。文献与查询之问的相似性
信息检索是计算机科学的一个子领域,其目的通常是由它们的词语向量间的点积来计算。对于一
是在给定的文献集合中找出与用户需求相关的所个给定的查询,点积运算会赋给每一篇文献一个非
有文献。从这个意义上讲,信息检索也叫文献检索。零值,在响应查询时,被赋有正值的文献以分值递
在未出现之前,信息检索系统安装在图书馆减的次序返回给用户即,点积的值越小,说明该文
或信息研究机构中,供咨询馆员使用。这些信息检献与查询越匹配。
索系统的算法常常只是对文档中的词语或字进行基于上述原理,一个页面的作者,如果他
分析。页面的出现,改变了传统文本文档的性的页面与商业利益有关的话,会想尽办法使他的页
质:页面中有一些超链信息和标记。如果我们面在检索结果中被排在前面。这里有如下一些办法
不顾处理对象性质上的变化,仍旧沿用传统的基于可以钻这些传统的基于文本处理的信息检索算法
文本处理的信息检索方法,会有什么弊端让我们的空子,比如:某页面是做汽车广告的,就可以在页
举一个传统的基于文本处理的信息检索算法:向量面的标记中重复写“汽车这个词,以增大汽
空间模型【,看看它的工作原理,以及在处理车这个词在页面中的频次,或者用表格中
页面时会出现的弊端。的标记,大量书写“汽车”;更有甚者,干脆
向量空问模型算法认为一篇文献是按词构成用不可见字体在页面中书写“汽车”。有一些网络广
的一个高维向量空间。每一篇文献和查询被表示为告公司就专门在研究如何钻搜索引擎的空子,使得
该向量空间中的一个词语向量。在文献中出现了的他们的客户的网页在搜索引擎返回结果的排名中
词语所对应的相应向量入口为正值,未在文献中出更靠前。如何来消除这种问题呢
现的词语所对应的向量入口为零。而且,词语所对
应的向量入口值常常是一个函数,其值随该词语在超链分析的用处
每一文献中出现的频次增高而增高,随该词在不同超链,即指向网页的链接位于网页之中,
擎文献中出现的频次增高而减少。可表述为: 从其完成的功能上讲,是简单的,对信息检索也没
■./ 有什么直接的用处。但是,网页作者使用超链的行
其中表示词在文献中的权重; 为,有可能是指出更有价值的内容。作者常常创建
为词在文献中的出现频次;为一些对访问者有用的超链:一些超链起着导航的作
大含有词的文件数量。换句话说,词在越多的用,譬如让访问者退回到主页面,另一些超链则提
学文献中出现,那么,词对文献的特征描述越少; 供访问比当前页更多内容的途径。后一种超链有可
词在文件中出现的频次越高,那么,词也越能指出与本页同主题的但质量更高的网页。信
磊能反映文献的特征词语向量可以被标准化比息检索系统要能够利用这种超链信息来优化对相
睾如维数、取值范围等,以此来适应不同长度的文关文献的查询。显然,超链分析能够极大地提高检