1 / 11
文档名称:

文本聚类的开题报告.doc

格式:doc   大小:25KB   页数:11页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

文本聚类的开题报告.doc

上传人:raojun00001 2019/6/6 文件大小:25 KB

下载得到文件列表

文本聚类的开题报告.doc

文档介绍

文档介绍:文本聚类的开题报告文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,可以将重要新闻文本进行聚类处理,是一种处理文本信息的重要手段。文本聚类开题报告基于K―Mean文本聚类的研究摘要文本聚类能够把相似性大的文本聚到同一类中。K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采用一种基于聚类中心的改进算法分析文本,通过实验,验证算法的有效性。中国论文网/view-;k-means;相似性;度量准则中图分类号:TP391文献标识码:B文章编号:1671-489X(20XX)18-0050-03ResearchforTextClusteringbasedonK-Mean//ZHANGYue,LIBaoqing,HULingfang,MENGLiAbstractTextclusteringcanmakethetextsimilaritylargeclusteredintothesameclass,K-Meansusuallyisusedintextclustering,becauseofimpactingontheclustercenter,,thispaperusesatextanalysisofimprovedalgorithmbasedontheclusteringcenter,throughtheexperiment,;k-means;similarity;measurecriterion文本聚类是把不同的文本分别聚在不同的类别中,是文本挖掘的重要技术,它是一种无监督的学****技术,每个类中包含的文本之间具有较大的相似性,不同类间的文本相似性比较小。文本聚类是数据挖掘的重要分支,它应用神经网络、机器学****等技术,能够自动地对不同文本进行分类。在文本聚类分析中,文本特征表示一般采用向量空间模型[1],这种模型能更好表现文本。在对文本聚类的研究中,Steinbach等人研究了基于划分的方法和基于层次的方法在文本聚类中的适用程度[2-3],得出结论:采用K-Means算法进行聚类,不仅聚类结果较好,而且适用于数据量比较大的聚类场合。在文章中根据研究者对K-Means的发现,结合实际研究,采用一种基于K-Means的改进算法来聚类。Dhillod等人对文本聚类进行研究发现,采用余弦夹角作为相似性度量比采用欧氏距离度量的结果好很多[4]。1文本聚类文本聚类的方法很多,主要分为基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于网格的方法[5]。在这些聚类方法中,基于划分的K-Mean是最常用也是很多改进方法的基础,文章中采取的改进方法也是基于K-Mean的。K-Mean首先由MacQueent[6]提出。它能在大数据集中广泛被使用,因为算法效率较高、算法执行过程理解容易。当前进行的很多研究都是以K-Mean为基础开展进行的,它的计算复杂度低,具有与文档数量成线性关系的特性,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强。K-Mean以k为初始聚类数,然后把n个文本分到k个聚类中,这样类内的文本具有较高的相似度,不同类间的相似度较小。K-Mean具体的算法过程如下:1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心;2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中;3)重新计算已经得到的各个类的中心,通常计算中心的准则函数采用平方误差准则,这个准则能够使生成的结果类尽可能地独立和紧凑;4)迭代执行第二步和第三步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。具体的算法流程如图1所示。2改进的聚类算法虽然使用K-Mean算法进行文本聚类时,具有计算复杂度低,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强的优点,但是实验发现,不仅初始聚类中心的选取对聚类结果有影响,孤立点的存在对文本的相似性的判断也有很大的影响,这就导致聚类判断不稳定。基于此,文章采用一种改进的方法来进行文本聚类,改进关键点在于聚类中心的计算,用与原聚类中心相似的文本数据来计算平均值作为该聚类中心。改进的K-Means算法描述如下所示:1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心;2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中,记作means;3)选择类中与类中心大于等于(1+a)*means的

最近更新

复杂网络传输容量分析与优化策略研究的开题报.. 2页

复方中药软膏在猪断层皮创面愈合中作用的实验.. 2页

壳聚糖基复合材料的制备及其性能研究的开题报.. 2页

增生平抑制胃癌形成的机理研究的开题报告 2页

塔河东南斜坡构造特征与含油气分析的开题报告.. 2页

基于飞球试验的微型脉冲应答机的设计与研制的.. 2页

基于非均匀半径型线的高超声速飞行器前缘钝化.. 2页

基于钻石理论的北京HT教育公司的战略定位研究.. 2页

基于透镜阵列的数字三维集成成像重构的开题报.. 2页

基于贝叶斯网络的电网故障类型诊断中期报告 2页

基于设计研究的管理教育变革探索——设计思维.. 2页

基于规则与多源信息融合的钻井智能预警系统研.. 2页

基于虚拟仪器的飞行器电池组测试系统设计与实.. 2页

基于腰椎小关节动态稳定原理的内固定设计及微.. 2页

基于结构的纹理特征及应用研究的开题报告 2页

基于红外摄像的连铸坯表面质量在线监测方法的.. 2页

基于等价多路径的数据中心短流加速技术研究的.. 2页

基于矩阵分解和随机游走相结合的推荐算法的开.. 2页

2024年年度工作计划范文合集九篇 37页

基于电场诱导聚合物流变成形微透镜阵列制造技.. 2页

2024年年度学雷锋志愿活动总结(通用5篇) 10页

基于生命周期理论的中小高科技企业融资方式研.. 2页

基于物联网的移动医疗监护系统的设计与实现的.. 2页

基于燃油添加剂的柴油机DPF催化再生试验研究开.. 2页

基于深度图像序列的三维人手运动跟踪技术研究.. 2页

2024安徽省安庆市中考一模数学试题及参考答案.. 9页

大树的花衣裳中班美术教案 2页

电梯维保报价书 3页

棋牌室培训资料 20页

中考历史必考知识点 5页