文档介绍:复旦大学
硕士学位论文
Web信息检索中对超链接类型的判别和应用
姓名:王延文
申请学位级别:硕士
专业:计算机应用
指导教师:张玥杰
20040420
摘要
在信息检索中,利用超链接提供的信息来辅助提高信息检索的准确性己
经得到广泛的运用。但因特网总体上是一个自由的发挥的、缺乏统一规范约束的
信息网络,对超链接的运用非常随意,绝大多数的超链接都是站点结构异航,而
类似于科技文献的引证类型的超链接的比重很小。所以,对于信息检索而言,有
利用价值的超链接是淹没在大量的无价值的超链接之中的,给利用超链接信息提
高信息检索质量带来的很大的干扰。所以如果能够对超链接类型加以判别,筛选
出对信息检索有价值的超链接,屏蔽掉大量无效超链接的干扰,会有助于提高对
超链接对提高信息检索精度的辅助作用。本次研究就是通过辨别超链接的类
型来筛选超链接,并结合查询信息调整超链接在具体查询中的权重,以期达到提
高超链接对信息检索的贡献程度。
关键字
信息检索、搜索引擎、超链接、类型判别、权重、日工
序言
研究背景
是为声’‘大用户交换或共享信息而发展起米的种全球性信息网络。在
年,专家预言六年后人类大多数信息将可以从上获得。大约的因
特网用户正在使用搜索引擎等搜索服务系统查找特定主题的
七信息,但用户刘搜索结果的质量并不满意。
整个可以看作是一个有海量信息的文档集合。年的统计表明因
特网上网页数量已经超过了亿,分布在约万各不同的站
点中,而用户己经超过了亿。在发布的第次《中国互联网发展状
况统计报告》中,至年底,我均每天
增加多个而上网总人数也达到万。一方面因特网在迅猛地发展。成
为个全球性的最庞大的信息资源另一方面互联网从整体上是无序的,没有统
的规划,信息组织没有结构,杂乱无章,从而使人们查询所需要的信息变得非
常困难,查询结果中用户真正需要的信息往往淹没在大堆用户并不关心的资料
中,情景如同在沙滩上找粒沙子。
检索系统常常返回大量与查询主题相关却并非最有代表性,最能满足用户需
求的的信息资源,以至于用户根本无法精选其中的高质量信息项。问题的根源是
传统的搜索服务系统土要采用内容分析其排序算法土要基
于经典信息检索的向量空间模型的相关性度量而无质量度量。简单的说,包含查
询语句中关键词的页面很多,而高质量页面只是其中很少的部分。因此需要
个基于质量度量的信息检索过程—主题精选
“宽泛性查询’,是指用户向搜索引擎提交个土题语义不太明确或概念范
畴太大的查询,典型的,查询语句仅包含个关键字。用户对问题的描述本身
就很不明确,有些关键词又有多种不同的含义,而因特网上包含这些关键字的页
而非常多,所以不难理解为何仅依靠内容查询得到的结果如此让用户失望了。而
上绝大多数用户查询属于宽泛性查询。
仅从页面本身的文本内容中很难找到文档的质量信息,因此仅通过
的基本的内容分析方法难以完成主体精选任务。页面是超文本集合,除了文
本信息还有大量的超链接。超链接可以提供额外的信息,如果妥善利用,可以改
进信息检索的效果。
对超链接的利用可以从三个方面开展
链接拓扑结构,可以挖掘信息资源之间的关联依赖关系
链接上卜文描述,往往体现作者对加入链接意图的说明
信息,路径层次和描述文字也能提供一些帮助。
本文从链接拓扑结构角度进行研究。从页面到页面的超链接,意味着
的作者主观上认为有参考价值,即有一定的权威性。基于这样的假设,通
过对超文本集合的拓扑结构进行分析,可以得到独立于文本内容的文档质
量信息,可达到主题精选的目的。因此,主题精选的本质是试图从大量的质量
评判土观意见中找到致公认的客观评判结论。
对于链接的拓扑结构,有两种利用方法·种是联合查询条件的,根据查询
条件先按内容进行查询,筛选出个内容相关度较高并且规模适中的候选集合,
然后局限在这个集合中运用链接拓扑结构的分析方法,如一算法另种
是独立于查询的,先独立地对采集到的网页中的超链接拓扑结构进行分析,得到
独立于内容的纯拓扑结构性的重要性度量值,然后再结合具体的查询条件进行检
索如算法。
联合具体的查询条件分析链接结构,位一次都要构造出个特定的超链接拓
扑图,然后进行计算和分析,每一次查询的运算量都比较大。但每·次查询可以
根据具体情况运用不同的规则构造拓扑图,灵活性比较强。而独立于查询的分析
方法,先不关心具体查询的个性化特点,对全局链接结构进行计算和分析,得到
一个静态的度量值,以后每次查询直接利用己经计算到的结果,饵次查询的速
度会比较快。
本文基于算法进行研究。在的的项目研究中,
提出了主题精选算