文档介绍:例某公司下属30个企业,公司为了考核下属企业的经济效益,设计了8个指标。为了避免重复,需要对这8个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离,数据是1-r2。得如下表:
x1
x2
x3
x4
x5
x6
x7
x8
x1
0
0
0
0
0
0
0
0
试用将它们聚类。
x2
x3
x4
x5
x6
x7
x8
确定类的个数
在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。
给定阈值——通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=,当聚类时,,则聚类结束。
什么是好的聚类方法?
一个好的聚类方法可以产生高质量的聚类:
类的内部具有较高的相似度
类间具有较低的相似度
聚类结果的质量依赖于相似度评价方法以及它们的应用;
聚类结果的质量也取决于它发现隐藏模式的能力。.
K-均值聚类
K-均值聚类方法是最简单、最常用的使用使用准则的方法。
K-均值聚类是属于划分方法中的基于质心技术的一种方法。划分的思路是以k为参数,把n个对象分为k 个类,以使类内具有较高的相似度,而类间的相似度较低。相似度的计算根据一个类中对象的平均值(被看作类的重心)来进行。
K-均值聚类的处理流程如下。首先,随机选择k个对象,每个对象都初始地代表一个类的平均值或中心。对剩余的对象,根据其与各自类中心的距离,将它赋给最近的类。然后重新计算每个类的平均值。这个过程不断重复,直到准则函数收敛。
注意:类均值的初始值是任意分配的,可以随机分配也可以直接使用前K个成员的属性值。
K-均值聚类实例
假设给定如下要进行聚类的元组:{2,4,10,12,3,20,30,11,25},并假设k=;m=2 和 m=,可得K1={2,3}和K2={4,10,12,20,30,11,25}。数值3与两个均值的距离相等,所以任意地选择K1作为其所属类。在这种情况下,可以进行任意指派。计算均值可得m1= 和 m2=16。重新对类中的成员进行分配,不断重复上述过程,直至均值不再变化。
具体过程如表:
m1
m2
K1
K2
2
4
{2,3}
{4,10,12,20,30,11,25}
16
{2,3,4}
{10,12,20,30,11,25}
3
18
{2,3,4,10}
{12,20,30,11,25}
{2,3,4,10,11,12}
{20,30,25}
7
25
{2,3,4,10,11,12}
{20,30,25}