文档介绍：聚类(Cluster)
聚类目的在将相似的事物归类。
聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。
好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。
1
11/16/2017
聚类分析的基本思想是认为所研究的数据集中的数据或者属性之间存在着程度不同的相似性。于是从数据集中取出一批数据,具体找出一些能够度量数据值之间或者属性之间相似程度的量,以这些量为中心作为划分类型的依据,把一些相似程度较大的数据或属性聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有数据或属性都聚合完毕,把不同的类型一一划分出来。
比较常用的距离有
绝对值距离
欧氏距离
明斯基距离
11/16/2017
4
Hierarchical Clustering层次聚类法
该方法是利用距离矩阵作为分类标准,将n个样品各作为一类;计算n个样品两两之间的距离,构成距离矩阵;合并距离最近的两类为一新类;计算新类与当前各类的距离;再合并、计算,直至只有一类为止。
Step 0
Step 1
Step 2
Step 3
Step 4
b
d
c
e
a
a b
d e
c d e
a b c d e
Step 4
Step 3
Step 2
Step 1
Step 0
agglomerative
(AGNES)
divisive
(DIANA)
K均值算法
K均值(k-means)是一种简便、实用的无监督聚类分析算法。这种算法在已知簇的个数时,可很好地实现数据的聚类分析。
基本思想
(1)首先,随机选择k个数据点做为聚类中心;
(2)然后,计算其它点到这些聚类中心点的距离,通过对簇中距离平均值的计算,不断改变这些聚类中心的位置,直到这些聚类中心不再变化为止。
11/16/2017
6
K-Means Clustering K-均值聚类方法
Example:
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
K=2
Arbitrarily choose K object as initial cluster center
Assign each objects to most similar center
Update the cluster means
Update the cluster means
reassign
reassign
K均值的流程
由流程图可知,k-均值算法是一种基于对数据集进行划分的方法进行聚类的算法。它是不断趋于最优解的试探过程。每一次迭代都试图使簇中心的选择更加接近于数据集的实际簇中心。
输出
N
输入
读入
标准化
归一化
初始化簇
计算簇平均值
更改簇中心
重新决定点归何簇
Y
簇中心是否变化
K均值算法
优势
(1)算法简单;
(2)执行和收敛过程相对较快,是一种常见的聚类算法。
局限性
(1)算法要求簇是密集的、簇和簇之间的差异比较大;
(2)数据集的平均值的计算必须有适当的定义;
(3)对于某些孤立数据和“噪声”点敏感等。