文档介绍:统计聚类分析
37
*
第1页,本讲稿共37页
37
*
判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。 聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数 个样品与Gq类中的nq个样品两两间的个平方距离求平均,得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。
第11页,本讲稿共37页
37
*
5.离差平方和法 又称Ward法,仅用于样品聚类。 此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。假定n个样品已分成g类,是其中的两类。此时有个样品的第k类的离差平方和定义为:,其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并,形成g-1类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当n个样品各自成一类时,n类的合并离差平方和为0。
第12页,本讲稿共37页
37
*
例19-1 测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵:试用系统聚类法将这4个指标聚类。本例是R型(指标)聚类,相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。
第13页,本讲稿共37页
37
*
聚类过程如下:(1)各个指标独自成一类G1={X1},G2={X2},G3={X3},G4={X4},共4类。(2)将相似系数最大的两类合并成新类,由于G1和G2类间相似系数最大,,将两类合并成G5={X1 , X2},形成3类。计算G5与G3、G4间的类间相似系数 G3,G4,G5的类间相似矩阵
第14页,本讲稿共37页
37
*
(3)由于G3和G4类间相似系数最大,,将两类合并成G6={G3 , G4},形成两类。计算G6与G5间的类间相似系数。(4)最终将G5 ,G6合并成G7={G5 , G6},所有指标形成一大类。
第15页,本讲稿共37页
37
*
根据聚类过程,绘制出系统聚类图(见图19-1)。图中显示分成两类较好:{X1,X2},{X3,X4},即长度指标归为一类,围度指标归为另一类。
身高 下肢长 腰围 胸围
G1 G2 G3 G4
图19-1 4个指标聚类的系统聚类图
第16页,本讲稿共37页
37
*
例19-2 今测得6名运动员4个运动项目(样品)的能耗、糖耗的均数见表19-1,欲对运动项目归类,以便提供相应的膳食标准,提高运动成绩。试用样品系统聚类法将运动项目归类。
表19-1 4个运动项目的测定值
运动项目名称
能耗 X1
(焦耳/分、m2)
糖耗 X2
(%)
负重下蹲
G1
引体向上
G2
俯 卧 撑
G3
-
-
仰卧起坐
G4
-
变量的标准化
X1‘ X2’
第17页,本讲稿共37页
37
*
本例选用欧氏距离,类间距离选用最小相似系数法。为了克服变量量纲的影响,分析前先将变量标准化, 分别是Xi的样本均数与标准差。变换后的数据列在表19-1的 , 列。
第18页,本讲稿共37页
37
*
聚类过程如下:(1)计算4个样品间的相似系数矩阵,样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式(19-3)计算得同样负重下蹲与俯卧撑之间的距离同理,计算出距离矩阵
第19页,本讲稿共37页
37
*
(2)G2,G4间距离最小,将G2,G4并成一新类G5={ G2,G4}。应用最小相似系数法,按公式(19-8)计算G5与其他各类之间的距离G1,G3,G5的距离矩阵(3)G1,G5间距离最小,将G1,G5并成一新类G6={ G1,G5}。计算G6 与G3之间的距离(4)最终将G1 ,G6合并成G7={G1 , G6},所有指标形成一大类。