文档介绍:管理统计学
2010年
9 聚类分析与判别分析
聚类分析
判别分析
聚类分析
基本原理和方法
系统聚类法
系统聚类的SPSS应用
K均值聚类法
K均值聚类法的SPSS应用
基本原理和方法
聚类分析:采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据
分类的基本思想:把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕
聚类分析
例如:有p个指标(变量),n个对象,依据这n个对象在p个指标下的数据,对这n个对象进行聚类。设数据为:
每一个对象是p维空间中的一个点
聚类问题,就是在p维空间中,对这n个点的聚类问题
使用聚类分析的注意的问题
变量(指标)不能太多,否则,难以判断聚类结果的实际意义
指标间有一定的相关关系(不必高度相关),可以对所观察的一群个体分类,从而可以对个体进行进一步的研究
变量(指标)过多,则可对指标分类,把有相近含义的指标聚到一起,把整个指标群分为若干类
聚类分析的分类
样本聚类/Q型聚类:对观测量(Case)进行聚类,不同的目的选用不同的指标作为分类的依据
变量聚类/R型聚类:能够找出彼此独立且有代表性的自变量,而又不丢失大部分信息,主要是对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类
聚类分析的步骤
①选择描述事物对象的变量(指标)
②形成数据文件,建立样品资料矩阵
③确定数据是否需要标准化
④确定表示对象距离或相似程度的统计量
⑤计算对象间的距离(rij)和相似关系矩阵R(rij)
对称阵:i到j的距离与j到i的距离相等
⑥选择类与类之间的距离定义
⑦聚类
⑧分类
度量样本之间相似程度的统计量
距离:
将一个样品看作P维空间的一个点,并在空间用某种度量测量点与点之间的距离,距离越近的点归为一类,距离较远的点归为不同的类
以dij表示第i个样本与第j个样本间的距离,需要满足以下四个条件
dij≥0,对一切i和j成立
dij=0,当且仅当i=j成立
dij=dji≥0,对一切i和j成立
dij≤dik+dkj,对于一切i和j成立
相似系数:
变量或样品的关系越密切,其性质就越接近,它们的相似系数的绝对值越接近1;反之,它们的相似系数的绝对值越接近于零,即样品的关系越疏远
样品之间相似系数大的样品归为一类,样品之间相似系数小的样品归为不同的类,即两点相似系数越接近1,就相当于距离越短,即相似的为一类,不相似的属于不同类
常用距离的分类
①欧氏距离
②欧氏距离平方
③偏差距离
④明考夫斯基距离
⑤马氏距离
⑥相关系数