文档介绍:KMeans算法研究及在文本聚类中的应用
2
———————————————————————————————— 作者:
———————————————————————————————— 日期:
个人收集整理 勿做商业用途
个人收集整理 勿做商业用途
II
个人收集整理 勿做商业用途
学校代码:***
学 号:***
密 级:
K—Means算法研究及在文本聚类中的应用
The Research and Application in Text Clustering of K-Means Algorithm
姓 名
***
学科专业
计算机应用技术
研究方向
数据库与Web技术
指导教师
***
完成时间
2013年4月
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
学位论文作者签名: 签字日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解 有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文.
(保密的学位论文在解密后适用本授权书)
学位论文作者签名: 导师签名:
签字日期: 年 月 日 签字日期: 年 月 日
学位论文作者毕业去向:
工作单位: 电话:
通讯地址: 邮编:
个人收集整理 勿做商业用途
个人收集整理 勿做商业用途
II
50
个人收集整理 勿做商业用途
摘 要
随着互联网的快速发展,大量文本信息存储过程变得更加容易,在Web上可以利用文档的数量正在迅猛地增长。在知识的海洋中,可以利用的信息总量在持续增长的时候,而用户的理解和处理信息的能力维持不变,如何从这海量的信息当中寻找出自己感兴趣的信息,如何对这些未分类的文本信息进行分门别类等等,这些问题涉及一个新的研究方向——文本挖掘的研究。,将文本文档按照设定的相似度度量标准划分为指定数目的类别,使得每个类别中的样本具有较高的相似性并且给出各类别的概要描述。与对普通实验数据聚类相比,文本聚类有其自身的特点,,针对K-Means算法研究及应用,尤其是在文本聚类挖掘层面的应用研究越来越多.
本文首先系统地介绍了聚类分析和文本聚类挖掘的基本理论,然后针对K-Means算法的局限性提出自己的改进方法,最后将改进的K—Means算法应用在文本聚类挖掘中。
首先,文章介绍了当前国内外的聚类算法和文本聚类挖掘的研究现状。相比之下,国外的研究相对比较成熟,国内主要的研究还只处在理论研究阶段。同时,简要地介绍了数据挖掘的理论内容,包括数据挖掘的概念以及数据挖掘的步骤等。
然后,在介绍聚类的概念和聚类算法等聚类分析相关理论知识的基础上,着重阐释了K-Means算法,并对其优缺点进行分析。针对原K—Means算法受孤立点影响和初始聚类中心随机选择等问题,提出了带孤立点分析的改进的K-Means聚类算法。孤立点分析主要采用统计学中“Z分数(标准分数)的绝对值大于2的数据作为孤立点"的思想,这个方法不但有着严格的数学理论基础而且可以避免用户设定阈值的前提条件。确定初始聚类中心的策略是每次都把相对集中的数据先划分出来,,改进的K-Mean