文档介绍:硕士研究生学位论文
题目: 通过丰富查询特征和查询图上的标签传播算法识别查询分类
姓名:
刘晓兵
学号:
10948249
院系:
信息科学技术学院
专业:
计算机系统结构
研究方向:
搜索引擎与网络数据挖掘
导师:
闫宏飞副教授
二〇一二年五月
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
通过丰富查询特征和查询图上的标签传播算法识别查询分类
刘晓兵
北京大学信息科学技术学院
2012年5月
摘要
查询意图被定义为查询背后的信息需求,正确分类用户的查询意图,能够帮助商业化搜索引擎优化检索结果,提供更加准确的检索服务。由于用户的查询关键词一般较短(平均长度2-3),通过查询词本身的特征对查询进行分类比较困难。本文从丰富查询表示方式和利用无标签数据两个方向,研究查询分类的可行方法,并在识别查询的商业意图上验证方法的有效性。
本文主要包括四个部分:
使用查询点击文档的摘要信息或者相似查询的集合丰富查询的特征,实验表明这两种丰富查询特征的方法对于识别用户商业意图非常有效。
根据查询之间的关联关系构建了四种查询图,在图上使用标签传播算法进行查询分类,实验验证,这种方法可以达到有监督机器学习方法同等的分类效果。
通过组合多种查询图丰富查询图的先验知识,或者是使用最大熵分类器扩展有标签的数据集改进标签传播算法的分类效果。实验表明,组合后的图更适合于标签传播算法,扩展有标签数据集的方法也可以很好的提升标签传播算法的分类效果。
组合使用标签传播算法和最大熵分类器,一种方法是通过标签传播算法扩大最大熵分类器的训练集,另外一种方法使用互学习的方式结合两种分类器,实验表明,训练集扩展后的最大熵分类器分类效果有明显提升,当有标签的数据集很少的时候,互学习的方法可以获得很好的优化。
关键词:查询分类,查询的商业意图,标签传播算法,查询图
Query classification with rich features and label propagation over Query graph
Xiaobing Liu
School of Electronic Engineering puter Science, Peking University
May, 2011
Abstract
Query intent defined as user need under query string, commercial search engine can provide more effective search service with correctly detecting query intention. Since queries are usually very short (average length 2-3), classify query only by their term features always get bad classification performance. We study query classification method through enrich query features and make use of unlabeled data and then verify effectiveness of our methods through detection mercial intention.
We present our research in four parts.
Enrich query features by snippet of click documents or similarity queries. Experiments show that these two features are effective for detecting mercial intention.
Construct four query graphs by association in queries; take label propagation over these graphs for query classification, this method can achieve equivalent performance as supervised machine learning methods.
Optimizing label propagation method bini