1 / 59
文档名称:

半监督层次协同文本聚类研究.pdf

格式:pdf   页数:59页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

半监督层次协同文本聚类研究.pdf

上传人:quality 2014/1/14 文件大小:0 KB

下载得到文件列表

半监督层次协同文本聚类研究.pdf

文档介绍

文档介绍:西南交通大学研究生学位论文圭监督层这迹回文奎聚娄砑究姓二零一二年五月一奄一一,平血月年专国内图书分类号:国际图书分类号:密级:公开
——篗:篐:...
饭嗍学位论文作者签名:京寐萄槐C躗噤使用本授权书。西南交通大学学位论文版权使用授权书日期:伊鲜醴锒遚本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于C芸冢年解密后适用本授权书;朐谝陨戏娇蚰诖颉啊獭指导老师签名:●,
学位论文作者签名:靠稚靼禗娟西南交通大学硕士学位论文主要工作毕声明日期:沙耗特征词聚类后将每个特征词簇合并为一个新的属性,不仅提高的效率而且提高了聚类本人在学位论文中所做的主要工作或贡献如下:晕谋臼菁惺占驮ご恚媚夂锨叩姆椒ǘ源橙ㄖ丶扑隳P徒行了改进,然后以向量空间模型的形式表示出来。疚脑诓愦涡劾嘀跋冉卣鞔式芯劾啵疚拿枋隽肆街痔卣鞔示劾的方法,分别是半监督特征词聚类法和单维子空间特征词聚类法,并评价两种算法。的质量。钟械牟愦涡劾嗝挥锌悸俏谋局浜吞卣鞔手涞挠镆骞叵担盐谋局间的相似性简单的看做特征词在文本中的共现性,把这些共现的特征词对象看做独立的对象,缺乏全面的考虑,忽略了共现特征词之间的相似关系。本文通过计算文本间和特征词之间的相似性,来建立协同矩阵,此协同矩阵包涵文本之间的相似性、特征词之间的相似性、文本和特征词之间的相似性,包涵了文本和特征词两种对象的集合中任意两个对象之间的相似性,便于层次协同聚类有效的进行。本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。
要摘西南交通大学硕士研究生学位论文第信息化时代的今天,网络文本呈现出海量的特性,从搜索到的海量文本中提取有效信息或获取当前热点信息,需要对文本聚类,使同一个文本簇中的文本间相似度尽量的高,不同簇中的文本间相似度尽量的低。在没有先验知识的条件下,这是一个无监督的学****过程。协同聚类是对向量空间模型中的行和列对象同时聚类,或者交替进行,最后迭代到收敛。文本聚类表示为向量空间模型,此模型的行为文本,列为特征词属性。层次协同文本聚类是将文本和特征词对象通过层次聚类方法进行聚类。由于文本集是海量的、高维的数据集,因此,如果把文本对象和特征词对象同时作为叶子节点用层次聚类处理,叶子节点将会呈现出海量的特性,并且忽略了特征词之间的语义关系,所以层次协同聚类面临低效和准确性降低。同时,半监督聚类可以利用少量的先验知识来指导聚类过程,不仅可以提高聚类的效率,而且可以提高聚类的精度。本文首先对文本进行收集和预处理,分析和评价传统的权重计算模型的优缺点,然后通过曲线拟合的方式对权重计算模型进行改进,克服了传统权重模型的缺点,实验表明改进模型提高了聚类的质量。本文用基于成对约束的半监督聚类方法,将文本数据集中出现的特征词聚类,然后将每个簇中的特征词合并为一个新的特征词簇属性,不仅可以降低向量空间模型的维度,且可以相似特征词合并,减少了近义词引起的误差。此方法是通常先找出特征词库中的成对约束集,再用罱诮姆椒ǘ猿啥栽际欣┏洌劾嗪蠼个簇中的特征词合并成一个新的属性。对文本数据集直接运用层次协同聚类而不考虑文本间的语义关系和特征词簇间的语义关系,把文本对象和特征词簇对象看做是独立的不相关的数据对象是不够全面的。本文通过计算文本之间的相似度和特征词之间的相似度构造出协同矩阵,然后利用此协同矩阵对文本进行层次协同聚类。实验结果表明,此方法的效率和精度有较大提高。关键词:文本聚类;层次聚类;协同聚类;半监督聚类;语义信息
琣鷈甌觚琧..琣,.琩,。.—....—,’
西南交通大学硕士研究生学位论文第甀;甌.;;——;—.
目录西南交通大学硕士研究生学位论文第掳爰喽教卣鞔示劾唷第页第滦髀邸研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..:⒙⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第吕砺刍文本聚类分析⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..