1 / 67
文档名称:

硕士研究生学位论文.doc

格式:doc   页数:67页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

硕士研究生学位论文.doc

上传人:博大精深 2015/4/13 文件大小:0 KB

下载得到文件列表

硕士研究生学位论文.doc

文档介绍

文档介绍:硕士研究生学位论文
题目: 通过丰富查询特征和查询图上的标签传播算法识别查询分类
姓名:
刘晓兵
学号:
10948249
院系:
信息科学技术学院
专业:
计算机系统结构
研究方向:
搜索引擎与网络数据挖掘
导师:
闫宏飞副教授
二〇一二年五月
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
通过丰富查询特征和查询图上的标签传播算法识别查询分类
刘晓兵
北京大学信息科学技术学院
2012年5月
摘要
查询意图被定义为查询背后的信息需求,正确分类用户的查询意图,能够帮助商业化搜索引擎优化检索结果,提供更加准确的检索服务。由于用户的查询关键词一般较短(平均长度2-3),通过查询词本身的特征对查询进行分类比较困难。本文从丰富查询表示方式和利用无标签数据两个方向,研究查询分类的可行方法,并在识别查询的商业意图上验证方法的有效性。
本文主要包括四个部分:
使用查询点击文档的摘要信息或者相似查询的集合丰富查询的特征,实验表明这两种丰富查询特征的方法对于识别用户商业意图非常有效。
根据查询之间的关联关系构建了四种查询图,在图上使用标签传播算法进行查询分类,实验验证,这种方法可以达到有监督机器学****方法同等的分类效果。
通过组合多种查询图丰富查询图的先验知识,或者是使用最大熵分类器扩展有标签的数据集改进标签传播算法的分类效果。实验表明,组合后的图更适合于标签传播算法,扩展有标签数据集的方法也可以很好的提升标签传播算法的分类效果。
组合使用标签传播算法和最大熵分类器,一种方法是通过标签传播算法扩大最大熵分类器的训练集,另外一种方法使用互学****的方式结合两种分类器,实验表明,训练集扩展后的最大熵分类器分类效果有明显提升,当有标签的数据集很少的时候,互学****的方法可以获得很好的优化。
关键词:查询分类,查询的商业意图,标签传播算法,查询图
Query classification with rich features and label propagation over Query graph
Xiaobing Liu
School of Electronic Engineering puter Science, Peking University
May, 2011
Abstract
Query intent defined as user need under query string, commercial search engine can provide more effective search service with correctly detecting query intention. Since queries are usually very short (average length 2-3), classify query only by their term features always get bad classification performance. We study query classification method through enrich query features and make use of unlabeled data and then verify effectiveness of our methods through detection mercial intention.
We present our research in four parts.
Enrich query features by snippet of click documents or similarity queries. Experiments show that these two features are effective for detecting mercial intention.
Construct four query graphs by association in queries; take label propagation over these graphs for query classification, this method can achieve equivalent performance as supervised machine learning methods.
Optimizing label propagation method bini

最近更新

年度瓜尔胶市场分析及竞争策略分析报告 70页

年度高档餐饮竞争策略分析报告 90页

04年管理学原理试题 10页

《指纹预处理细化》课件 31页

《直杆的基本变形》课件 27页

《两极指南北导学案-2023-2024学年科学大象版.. 3页

刍议文博资源与旅游业融合发展的有效模式 10页

小学生快乐暑假无忧无虑的句子锦集六十条 50页

教育教学总结幼儿园大班1500字模板5篇 14页

小学生以尊师重道为主题的高分作文(5篇) 54页

专职安全员年终总结报告 57页

高中数学教师教学述职报告(5篇) 62页

第一个发明麻醉剂的人课件 16页

高校离退休人力资源的合理开发与利用——基于.. 2页

第十章-争议的预防与处理课件 54页

高取向aP-硅酸镧电解质材料制备与结构—性能研.. 2页

结直肠癌肝转移外科治疗进展1-课件 83页

饮用水ClO2消毒过程中融产物前驱体的转化机制.. 2页

飞机复合材料损伤无损检测方法研究的开题报告.. 2页

风电场电网中性点接地方式选择及继电保护配置.. 2页

颧脂肪垫的组织学观察及在面中部提升术中的基.. 2页

预算管理在SQSP公司的应用研究的开题报告 2页

2024年暑假认识实习报告 22页

面向搜索引擎的云计算平台设计与实现的开题报.. 2页

静脉输液治疗护理学考核试题题库及答案 38页

2024企业主要负责人安全培训考试题及答案优质.. 12页

叙事歌曲《二月里见罢到如今》创作及演唱解析 2页

毕业设计 论文 酒店管理系统 62页

以工代赈项目开工仪式表态发言稿 1页

学前儿童卫生学 220页