1 / 26
文档名称:

论文--基于均值的无监督聚类方法.docx

格式:docx   大小:134KB   页数:26页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

论文--基于均值的无监督聚类方法.docx

上传人:资料分享 2018/6/24 文件大小:134 KB

下载得到文件列表

论文--基于均值的无监督聚类方法.docx

相关文档

文档介绍

文档介绍:摘要: 聚类(clustering),简单地说就是把相似的东西分到一组,同分类(Classification)不同,对于一个分类器(classifier) ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个分类器(classifier) 会从它得到的训练集中进行“学****从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做监督学****supervised learning ),而在聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此聚类(clustering) 通常并不需要使用训练数据进行学****这在 Machine Learning 中被称作无监督学****unsupervised learning)。模式识别方法的首先要结局的一个问题就是特征的选择,目前许多方法只考虑了有监督学****的特征选择问题,对无监督学****的特征学则问题却涉及的很是很少,依据特征对分类结果的影响和特征之间相关性分析两个方面提出了一种基于K-均值聚类方法的特征学选择算法,用于无监督学****的特征选择问题。本次课题中,我们主要研究K-均值聚类方法。
K-均值聚类(K-means),属于聚类分析中基于划分的比较经典的算法之一,简捷性和适应性很强,对于多种数据类型都能进行聚类分析。而且他的可伸缩性也也可以要你过来对大数据集进行快速有效的处理。在当今一直在强调的大数据背景下,K-means算法的改进一直都是聚类算法研究领域的热门话题。其最主要的研究问题在于聚类数目的不确定性,但又直接影响了聚类的效果;还有其聚类结果太依赖初始中心点的设置,但不同的初始中心点对与结果的影响很大。本文对于K-means算法的聚类中心数量进行了实验并比较,做出一些改进。
首先,我们要先了解什么是聚类,简单的介绍以下聚类分析在国内外的发展历史,介绍当前比较常用的集中聚类分析算法,对它们进行比较。
其次,对于聚类算法的监督和无监督进行比较,详细它们两个至今的相似点与不同点,了解他们的使用条件和使用效果,以便于我们能够选取最为适合的方法解决问题。
接着,针对最为经典的聚类算法K-means算法,要做一个全面的了解,包含了算法的原理、实现过程、其存在的不足。同时针对不同聚类中心的数目进行仿真实验,了解不同数目的聚类中心对于聚类结果的影响。
最后,针对于K-means算法中存在的初始中心点选取的不足进行改进,介绍几种被提出的改进方法。比较其中出现的一些问题,进行对比。
关键词:聚类模式识别 K-means算法
Abstract
Author’s Name: Wen Yichao Tutor: Chai Jing
Unsupervised clustering algorithm based on average
ABSTRACT:Unsupervised clustering algorithm based on averageClustering , simply is something similar to a group, with different Classification , for a classifier , usually need you to tell it "this thing is divided into so-and-so" such examples, ideally, a classifier will get training from its focus on "learning", which have the ability to classify unknown data, this process usually provide training data is called supervised learning , and at the time of clustering, we don't care about what one is, we need to implement the goal of just put similar things together, as a result, a clustering algorithm is usually just need to know how to calculate the similarity can begin to work, so clusteringusually do not need to use training data to study, in the Machine learning in the known a