文档介绍：应用统计学课件
第一页，共92页
基本思想
聚类分析的基本思想: 对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。于是根据一批样品的多个指标, 具体找出一些能够度量样品或指标之间的相似程度的统计量。以这些统计量为分类的依据, 把一些相似程度较大的样品(或指标)聚合为一类。并把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。从而按相似程度的大小, 把关系密切的样品聚合到一个小的分类单位, 关系疏远的样品聚合到一个大的分类单位, 直到把所有的样品(或指标)都聚合完毕。把不同的类型一一划分出来, 形成一个由小到大的分类系统。再把整个分类系统画成一张分群图(又称谱系图), 用它把所有样品(或指标)间的亲疏关系表示出来。
第二页，共92页
聚类分析和判别分析的区别
应该指出, 聚类分析和判别分析都是研究事物分类的基本方法,但二者有着重要的区别。聚类分析把分类对象按一定规则划分成若干类型, 这些类型不是事先给定的。而判别分析则事先已知类型的划分. 通常每一类都有一个训练样本, 据此得出判别函数或判别准则,从而对新样品的归属作出判别。
与多元分析的其它方法相比, 聚类分析的方法很粗糙, 理论也尚不完善。但由于它的应用取得很大成功, 和回归分析和判别分析一起被称为多元分析的三大实用方法。
本章重点介绍一些常用的分类统计量和目前较为广泛使用的谱系聚类方法。最后, 简要介绍一种模糊聚类法。
第三页，共92页
§ 分类统计量
聚类分析不仅可以对样品进行分类, 也可以对指标(变量)进行分类。设有个样品, 每个样品有个指标。对观察值 , 可根据间的某种相似性, 对个样品进行分类。例如某班有个学生, 可根据每个学生的各科考试成绩把学生分为优、良、中和差四类。另一方面, 也可对指标进行分类。即根据某种相似性, 把这个指标进行分类。例如在服装设计中, 往往要测量很多的指标(变量), 如身高, 上体长, 臂长, 肩宽, 胸围等。对这些指标, 大致可分为两大类。一类反映人的高矮, 另一类反映人的胖瘦。
第四页，共92页
分类统计量
对样品进行分类的方法称为 Q 型聚类法。由于每个样品可看成是 p 维空间的一个点,n 个样品就组成 p 维空间中的 n 个点。这时, 自然可以用距离来度量样品之间的相似性。而对指标(变量)进行分类的方法, 称为R 型聚类法。指标(变量)间的某种相似性, 常用“相似系数”来描述。下面介绍几种常用的距离和相似系数。
第五页，共92页
样品间的“相似性”度量—距离
设每个样品有 p 个指标, 观察值记为
()
每个样品可看成是 p 维空间的一个点。于是, 可用各点之间的
距离来衡量各样品点之间的接近程度。
样品和之间的距离 , 一般应满足如下的三个条件:
(ⅰ) , 且时当且仅当 ;
(ⅱ) ;
(ⅲ) ;
有时所用的距离不满足(ⅲ), 但在广义的角度上仍称为距离。常用的距离有如下几种:
第六页，共92页
(Minkowski)距离(明氏距离)
()
明氏距离有如下三种特殊形式。
第七页，共92页
(m=1)
()
第八页，共92页
(m=2)
()
第九页，共92页
(Chebychev)距离(m=∞)
()
第十页，共92页