文档介绍：硕士研究生学位论文
题目:基于概率模型的名人网页相关度评价
姓名:
学号:
院系: 信息科学技术学院
专业: 计算机系统结构
研究方向: 网络与分布式系统
导师: 教授
二零零五年五月
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘要
本文的工作是在北京大学网络实验室、北京大学计算语言所与北京大学— IBM创新研究院联合研发的天网知名度系统(Fame)中开展的。针对原有系统名人网页相关度评价中存在的问题,本文中提出了一种基于概率模型的名人网页相关度评价模型。
首先,针对Fame系统中名人网页相关度评价的特点,构建基本相关度评价模型。构建基础是Okapi BM25检索模型,在其基础上引入HTML标记权重系数,改进Okapi BM25公式,弥补其没有考虑HTML标记的不足。利用Fame系统数据集进行评测,实验结果表明HTML标记系数的引入提高了系统相关度评价质量,同时显示该基本模型优于原有系统中的相关度评价模型,提高了系统性能。
其次,由于不同领域名人的属性信息对其相关度评价有不同的贡献,本文中构建了区分领域的多层次实体模型,来更好地描述用户的信息需求。同时在基本模型基础上引入属性信息权重系数,使基本模型从不支持结构化查询需求改进为支持多层次实体模型。各领域的权重系数通过训练集训练的方式获得,避免了人工赋予方法的不确定因素。选取对系统相关度性能提高最大的一组权重系数作为模型中的领域参数,该套参数通过测试集的测试,证明有较好的适用性。
再次,采用了伪反馈和用户反馈两种相关反馈方法,为实体属性信息进行权重的自动调整,以达到系统相关度评价的进一步优化。通过实验得出的结论是:1)初始检索的质量很大程度地影响伪反馈的效果。应该先对初始检索模型进行优化,再使用伪反馈,这个顺序很重要;同时初始检索的质量需要达到一定高度后,使用伪反馈才能提高系统检索质量,目前系统的初始检索质量仍不适宜直接进行伪反馈。2)用户反馈在总体上自动优化了属性信息权重,提高了系统相关度评价质量。3)用户反馈的效果受名人实体属性信息词数的影响,属性信息越丰富,采用用户反馈后评价质量提高的概率越大。
关键词:信息检索,相关度评价,概率模型,相关反馈
Probabilistic Model-Based Relevance Evaluation of Famous People’s Web Pages
Abstract
Tianwang Fame is an individualized information retrieval system. According to the main problems of the original relevance evaluation models, a probabilistic model-based relevance evaluation model is proposed in this dissertation to improve the relevance ranking of famous people’s web pages.
First, a basic evaluation model is built on the basis of Okapi BM25. The author introduced an HTML weight to Okapi BM25. The test on Fame data collection shows that this basic model brings improvements to the system.
Second, a multi-level area-differed entity model is built to fully describe the entities. The author brings an area-differed attribute weight to the basic model. The selection of the weights’ values is based on the training process on Fame’s training set. The variables are tested be effective to improve famous people’s relevance evaluation.
Last but not least, both pseudo-feedback an