1 / 7
文档名称:

文本聚类的开题报告.docx

格式:docx   大小:22KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

文本聚类的开题报告.docx

上传人:ogthpsa 2019/5/15 文件大小:22 KB

下载得到文件列表

文本聚类的开题报告.docx

相关文档

文档介绍

文档介绍:文本聚类的开题报告文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,可以将重要新闻文本进行聚类处理,是一种处理文本信息的重要手段。文本聚类开题报告基于K―Mean文本聚类的研究摘要文本聚类能够把相似性大的文本聚到同一类中。K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采用一种基于聚类中心的改进算法分析文本,通过实验,验证算法的有效性。中国论文网http:///9/ 关键词文本聚类;k-means;相似性;度量准则中图分类号:TP391文献标识码:B 文章编号:1671-489X18-0050-03 ResearchforTextClusteringbasedonK-Mean//ZHANGYue,LIBaoqing,HULingfang,MENGLi AbstractTextclusteringcanmakethetextsimilaritylargeclusteredintothesameclass,K-Meansusuallyisusedintextclustering,becauseofimpactingontheclustercenter,,thispaperusesatextanalysisofimprovedalgorithmbasedontheclusteringcenter,throughtheexperiment,itverifiestheeffectivenessoftheimprovedalgorithm. Keywordstextclustering;k-means;similarity;measurecriterion 文本聚类是把不同的文本分别聚在不同的类别中,是文本挖掘的重要技术,它是一种无监督的学****技术,每个类中包含的文本之间具有较大的相似性,不同类间的文本相似性比较小。文本聚类是数据挖掘的重要分支,它应用神经网络、机器学****等技术,能够自动地对不同文本进行分类。在文本聚类分析中,文本特征表示一般采用向量空间模型[1],这种模型能更好表现文本。在对文本聚类的研究中,Steinbach等人研究了基于划分的方法和基于层次的方法在文本聚类中的适用程度[2-3],得出结论:采用K-Means算法进行聚类,不仅聚类结果较好,而且适用于数据量比较大的聚类场合。在文章中根据研究者对K-Means的发现,结合实际研究,采用一种基于K-Means的改进算法来聚类。Dhillod等人对文本聚类进行研究发现,采用余弦夹角作为相似性度量比采用欧氏距离度量的结果好很多[4]。 1文本聚类文本聚类的方法很多,主要分为基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于网格的方法[5]。在这些聚类方法中,基于划分的K-Mean是最常用也是很多改进方法的基础,文章中采取的改进方法也是基于K-Mean的。 K-Mean首先由MacQueent[6]提出。它能在大数据集中广泛被使用,因为算法效率较高、算法执行过程理解容易。当前进行的很多研究都是以K-Mean为基础开展进行的,它的计算复杂度低,具有与文档数量成线性关系的特性,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强。K-Mean