文档介绍：聚类分析 —K均值算法
聚类分析是一种重要的人类活动,通过自动聚类能够识别对象空间中稠密和稀疏区域,从而发现全局分布模式和数据属性之间有趣的相关。目前已应用于许多方面:数据挖掘和市场研究、模式识别、数据分析和图像处理.
聚类是将一批数据依据它们的相似特征归类,使人们能够对数据进行概括性的理解。
簇是数据对象的集合,这些对象与同一个簇中的对象彼此相识,而与其他簇中对象相异。一个数据对象簇可以看做一个组,因此可以看做一种数据压缩形式
聚类算法分类:
划分方法:K均值和K中心方法
层次方法
基于密度的方法
基于网络的方法
其中的k均值聚类算法是最流行和最受关注的一种聚类分析算法.
K均值过程概述:
1. K均值算法:已K为输入参数,把n个对象的集合分为K个簇,使得结果簇内的相似度高,而簇间的相似度低。簇的相似度是关于簇中对象的均值度量,可以看做簇的质心或重心。
2. K均值输入:
K:簇的数目
D:包含n个对象的数据集。
3. K均值输出:k个簇的集合。
4. K均值方法
从D中任意选择k个对象作为初始簇中心;
repeat
根据簇中对象的均值,将每个对象再指派到最相似的簇;
更新簇均值,即计算每个簇中对象的均值;
until不再发生变化
例题:假设有一个对象集合,分布在图a矩形所表示空间中。令k=3,即用户要求将这些对象划分成三簇。
首先任意选择三个对象作为三个初始的簇中心用“”来标注。根据对象与簇中心的距离,每个对象分布于最近的簇,这种分布形成图a中点划线所描绘的轮廓。
图a
下一步,更新簇中心。也就是说,根据簇中的当前对象,重新计算每个簇的均值。使用这些新的簇的中心,将对象重新分布到簇中心最近的簇中,这样的重新分布形成了图b中虚线所描绘的新轮廓。