文档介绍:墓邋羞筐曼生篮皇处理鲑竖值盐篡扭堂瞳姓专学号:名:业:师:院:年月日导鱼量.
本人签名:整睦茑三:闳┛≯桄堇扇独创性虼葱滦声明关于论文使用授权的说明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文不属于保密范围,适用本授权书本人签名;同期:导师签名:冢日期:、
基于用户日志聚类的查询扩展摘要简单易用,速度快可移植性高,有效利用文档中词语与原查询词的距查询词是从用户角度进行信息描述,因此本文认为指向同一科术语识别的方法,该算法采用人工编辑的词典实时提取具有一定意义的术语,极大地提高了分词的准确性。关键词:查询扩展用户日志聚类百科术语识别网页去噪随着的发展,网络信息量不断增长,通过搜索引擎获取所需信息已经成为用户使用网络的一个重要方面。研究表明,用户使用查询词的平均长度为个,长度不超过牟檠收甲懿檠.%,这比热朔治龅挠⑽,说明在中文搜索引擎得到的用户需求信息更少,需要对用户查询进行特定处理,才能准确返回检索结果。查询扩展即利用计算语言学,信息处理等技术在原有查询的基础上加入与用户输入的检索词相关联的新词,组成新的更长、更准确的查询,修改后的查询字段会发布给搜索引擎,这样可以在一定程度上弥补用户查询信息不足的缺陷。它可以有效充分地挖掘用户查询意图,从而提高信息检索查全率和查准率。本文首先提出了基于词语物理距离的简单查询扩展方法,该方法离构造权值向量,但存在使用伪相关文档和中文分词中短语未识别的问题。针对以上问题,本文提出基于用户日志聚类的查询扩展方法,该算法通过对没罩镜脑ご砗途劾嗟玫绞淙爰焖鞔识杂Φ查询扩展词。它首先对用户点击相关网页进行可信度去噪,然后对网页进行预处理,得到标题、正文、网页关键词等,利用向量空间模型⑷ㄖ稻卣螅⑼ü齃算法进行特征降维,再用值算法进行文本聚类,得到的文本聚类中心作为类别标注词语。另外,两个查询词是高度相关,并将原查询的反向检索词作为扩展候选词;最后,结合类别中心、用户查询短语、文档标题、反向检索词进行查询扩展融合,得到该查询词的查询扩展词组。本文还创新性提出了百
瓵篞.,琲琲甌,—.....瑆.,.瑆.,’甌,瑀瑆琹,,,◆一苛
●
目录课题研究背景和意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯国内外研究现状及发展趋势⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文的工作重点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第二章信息检索及查询扩展关键技术背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..算法测试⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一系统框架设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯的滴谋揪劾唷第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.┱┱狗⒄骨魇啤论文的结构框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯搜索引擎基本框架原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯文本聚类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。算法理论基础⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..存在的问题及解决方案⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第四章基于用户日志聚类的查询扩展⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。..⋯⋯⋯。系统关键技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..没罩酒ヅ洹融合⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..’,蚤”
系统实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯