1 / 37
文档名称:

统计聚类分析.ppt

格式:ppt   大小:2,806KB   页数:37页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

统计聚类分析.ppt

上传人:文库新人 2022/1/18 文件大小:2.74 MB

下载得到文件列表

统计聚类分析.ppt

相关文档

文档介绍

文档介绍:统计聚类分析
37
*
第1页,本讲稿共37页
37
*
判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。 聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数 个样品与Gq类中的nq个样品两两间的个平方距离求平均,得到两类间的相似系数 类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。
第11页,本讲稿共37页
37
*
5.离差平方和法 又称Ward法,仅用于样品聚类。 此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。假定n个样品已分成g类,是其中的两类。此时有个样品的第k类的离差平方和定义为:,其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并,形成g-1类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当n个样品各自成一类时,n类的合并离差平方和为0。
第12页,本讲稿共37页
37
*
例19-1 测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵: 试用系统聚类法将这4个指标聚类。 本例是R型(指标)聚类,相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。
第13页,本讲稿共37页
37
*
聚类过程如下: (1)各个指标独自成一类G1={X1},G2={X2},G3={X3},G4={X4},共4类。 (2)将相似系数最大的两类合并成新类,由于G1和G2类间相似系数最大,,将两类合并成G5={X1 , X2},形成3类。计算G5与G3、G4间的类间相似系数 G3,G4,G5的类间相似矩阵
第14页,本讲稿共37页
37
*
(3)由于G3和G4类间相似系数最大,,将两类合并成G6={G3 , G4},形成两类。计算G6与G5间的类间相似系数。 (4)最终将G5 ,G6合并成G7={G5 , G6},所有指标形成一大类。
第15页,本讲稿共37页
37
*
根据聚类过程,绘制出系统聚类图(见图19-1)。图中显示分成两类较好:{X1,X2},{X3,X4},即长度指标归为一类,围度指标归为另一类。
身高 下肢长 腰围 胸围
G1 G2 G3 G4
图19-1 4个指标聚类的系统聚类图



第16页,本讲稿共37页
37
*
例19-2 今测得6名运动员4个运动项目(样品)的能耗、糖耗的均数见表19-1,欲对运动项目归类,以便提供相应的膳食标准,提高运动成绩。试用样品系统聚类法将运动项目归类。
表19-1 4个运动项目的测定值
运动项目名称
能耗 X1
(焦耳/分、m2)
糖耗 X2
(%)
负重下蹲
G1




引体向上
G2




俯 卧 撑
G3


-
-
仰卧起坐
G4


-

变量的标准化
X1‘ X2’
第17页,本讲稿共37页
37
*
本例选用欧氏距离,类间距离选用最小相似系数法。为了克服变量量纲的影响,分析前先将变量标准化, 分别是Xi的样本均数与标准差。变换后的数据列在表19-1的 , 列。
第18页,本讲稿共37页
37
*
聚类过程如下: (1)计算4个样品间的相似系数矩阵,样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式(19-3)计算得 同样负重下蹲与俯卧撑之间的距离 同理,计算出距离矩阵
第19页,本讲稿共37页
37
*
(2)G2,G4间距离最小,将G2,G4并成一新类G5={ G2,G4}。应用最小相似系数法,按公式(19-8)计算G5与其他各类之间的距离 G1,G3,G5的距离矩阵 (3)G1,G5间距离最小,将G1,G5并成一新类G6={ G1,G5}。计算G6 与G3之间的距离 (4)最终将G1 ,G6合并成G7={G1 , G6},所有指标形成一大类。