1 / 27
文档名称:

第四章 聚类分析.ppt

格式:ppt   大小:2,522KB   页数:27页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第四章 聚类分析.ppt

上传人:cengwaifai1314 2022/6/17 文件大小:2.46 MB

下载得到文件列表

第四章 聚类分析.ppt

相关文档

文档介绍

文档介绍:聚类分析与判别分析的区别
判别分析:事先已知研究对象可以分成哪几种类别。需要拥有一批事先已经知道类别的历史样本,参考这些样本建立判别函数,对某一新的样品,判断其分类。
聚类分析:事先不知道研究对象可以分成哪些类别。聚类分析要做的就是根据数,可以采用绝对距离、欧氏距离或马氏距离等多种选择。
n个样品的最短距离聚类法的步骤:
(任选一种距离,如“欧氏距离”,作为两个样品之间的距离):
(1) 最开始,每个样品作为一个类别(共n类),计算两两类别之间的距离,构成一个距离矩阵,记为D(0) 。
(2) 在D(0)中选择距离最小的两个类别进行合并,例如Gp与Gq两类的距离Dpg最小,则将Gp与Gq二类合并成新类,记为Gr,即Gr={Gp,Gq}。
(3) 继续计算两两类别的距离,得到距离阵D(1) ,在计算Dr与其他类别Gk之间的距离时,采取最短距离法,公式为:
(4) 对D(1)重复上述(2)(3)步骤,得到D(2), 继续进行下去直到所有样品归并成一类为止。
“最短距离法”聚类举例 (P114 例1)
设有6次观测(n=6)的样本: 1, 2, 5, 7, 9, 10。每个样品的因子(指标)只有一个(m=1),试用最短距离法进行聚类,样品距离使用“绝对距离”。
D(0)
G1
G2
G3
G4
G5
G6
G1
\
G2
1
\
G3
4
3
\
G4
6
5
2
\
G5
8
7
4
2
\
G6
9
8
5
3
1
\
(1): 计算两两样品之间的距离,组成距离矩阵D(0):
(2):分析D(0), 发现距离最小的两类是D12=D56=1, 于是,G1与G2合并成G7, G5与G6合并成G8,之后,共有4类。
(3):重新计算各类的距离,得到矩阵D(1)。
D(1)
G3
G4
G7
G8
G3
\
G4
2
\
G7
3
5
\
G8
4
2
7
\
(4):分析D(1), 找到距离最短的两个类别,D34=D48=2, 所以把G3、G4与G8成新类G9,目前只剩2类: G7与G9。
(5) :把G7与G9合并成G10。
D(2)
G7
G9
G7
\
G9
3
\
最短距离法 聚类图
最长距离法
只是,类与类之间的距离,用两两样品之间的最长距离来表示,即:
最长距离法聚类的步骤与最短距离法完全相同,即:
各样品先自成一类,然后将距离最小的两类合并。
设某一步将Gp和Gq合并为Gr, 则Gr与其他类Gk的距离为:
然后寻找距离最小的两类进行合并,直到所有样品合并为一类为止。
离差平方和法
离差平方和法是另一种系统聚类法,其原则是:
同一类别内部各样品之间的离差平方和应该较小,类与类之间的离差平方和应该较大。
这n个样品可分为k类, G1, G2,…, Gk,每类的样品数为ng(g=1,2,…, k),总和为n:
设有m个指标(因子),观测到容量为n的样本,该资料阵可记为X(m行n列)。
X的每一列称为一个“样品” 。
对于第g类的资料阵(m行ng列,从X中抽取ng列),可以写为Xg :
则第g类的类内离差平方和可以写为Sg:
那么,k个类别总的类内离差平方和就是对Sg求和(g=1,2,…,k):即
当固定一个k时,我们希望:S达到极小。
Sg其实就是第g类内部各样品与其重心的欧氏距离的平方再求和,也即:Xg的距平资料阵各元素的平方和。
把n个样品分成k类,分法非常多,要比较所有的分法使得S最小,不太现实。
因此,只好放弃在一切分类中寻求S的极小值,提出使S达到局部极小的办法。
设Gp与Gq两类的类内离差平方和分别为Sp和Sq,若Gp与Gq合并成Gr类后的离差平方和为Sr,则此次合并导致总离差平方和的增量为:
聚类的原则是:选择使D2pq最小的两类合并,因此D2pq可认为是两类之间的距离,可以证明D2pq可由Gp与Gq两类的重心之差的平方和来表示:
当Gp与Gq合并成新类Gr后,Gr与其他类别Gk的距离,还可通过递推公式来计算:
“离差平方和”聚类法举例
设有6次观测(n=6)的样本: 1, 2, 5, 7, 9, 10。每个样品的因子(指标)只有一个(m=1),试用“离差平方和”法进行系统聚类。
首先,将n个样品各自成一类,
然后根据公式:
计算两两类别之间的D2pq, 构成阵D(0)
D(0)
G1
G2
G3
G4
G5
G6
G1
\
G2

\
G3


\