文档介绍:室』盘玉职称塾撞学位盗±指导教师单位名称盐簋扭銎堂鱼垫盔堂瞳邮编垒三论文提交日期生垒月论文答辩日期生副指导教师单位名称申请学位级别硕士邮编学位授予单位答辩委员会主月姓名职称
期:丝:汗璷独创性声明学位论文使用授权书本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。C艿穆畚脑诮饷芎笥ψ袷卮斯娑◆
摘要随着互联网技术的飞速发展,文本文档、趁嬖诨チM锌焖倮┏洌何帮助人们更快捷、有效地获取信息,已成为目前搜索引擎领域重要的研究课题之一。鉴于此,聚类搜索引擎应运而生。聚类搜索引擎将文本聚类技术应用到搜索引擎中,对搜索结果进行有效的聚类,帮助用户快速准确地定位感兴趣内容,从而提高搜索引擎检索精度。近年来,聚类搜索引擎在国外发展迅速,许多技术已经应用成熟。相比之下国内这方面的研究还比较少,但也有部分中文搜索引擎将聚类技术引入其中,以提高中文信息检索的精度和效率。我们将其称为中文聚类搜索引擎。本文的主要工作是对聚类搜索引擎的体系结构进行了深入研究,并对现有的中文聚类搜索引擎进行改进,以提高检索的效率和精度。具体的研究工作简要概括为以下几个方面:一、对聚类搜索引擎系统及其核心模块进行了简要的设计,并在此基础上对每个模块中的关键技术做了一个详细的介绍。二、目前聚类特征选取方法大多是基于统计学的,其中最主要的缺点是忽略了词与词之间的语义关系,鉴于此,本文提出了结合语义的特征选择方法。该方法首先对特征项进行词性选择与分类,然后计算词语之间相似度,最后进行同义词合并加权。经过这些步骤使得特征选取从词的层面上升到主题语义的层面,不仅大大降低了特征空间的维度,而且提高了聚类的速度和精度。三、椒ㄔ谟τ弥腥菀资艿焦铝⒌愕母扇牛A丝朔飧鋈钡悖疚提出了一种基于平均密度过滤孤立点的方法。该方法简单实用,且能够较好的识别文本集合中的孤立点,为下一步的聚类的稳定性奠定了良好的基础。四、针对传统甿算法中聚类参数牟蝗范ㄐ砸约俺跏季劾嘀行难∪的盲目性,本文改进了基于“最大最小”原则选取初始聚类中心的方法,使得聚类参数娜范ü套远岣吡宋谋揪劾嘀柿俊关键词:聚类搜索引擎,聚类系统,甿,特征选取●
腸甌鱡,.,.琧.,.産.,琺ⅱ鬳、Ⅳ.,。...
篊●‘;;猰;,瑃”.琲.
目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.搜索引擎的介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..阉饕娣⒄⒄挂庖濉聚类搜索引擎研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本文的研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第二章相关理论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯搜索引擎工作原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第三章聚类搜索引擎系统的设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..聚类搜索引擎架构设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.?榧蚪椤聚类搜索引擎关键模块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..●.⋯.⋯⋯⋯.⋯.⋯⋯⋯⋯⋯.⋯.⋯.⋯⋯⋯..⋯⋯.⋯⋯⋯.⋯.⋯⋯..⋯.⋯⋯⋯⋯.⋯⋯⋯⋯.⋯.⋯⋯..譬燕
.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第四章聚类系统特征选择技术的改进⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。特征降维相关概念⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯常用的特征选择方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.畔⒃