文档介绍:第七章聚类分析
§1 系统聚类法(I)
一、距离系数
聚类分析是研究“物以类聚”的一种统计方法,通常以“距离”和“相似系数”为依据来进行聚类。本节以“距离”为依据的有最短距离法、最长距离法及中间距离法等聚类方法。
设有n个样品,每个样品测定m个指标,其数据矩阵为:
计算点Xi与点Xj间的距离公式有:
(1)绝对值距离
(2)欧氏距离
(3)明氏距离
①即绝对值距离
②即欧氏距离
二、聚类步骤
(1)将n个样品各自成一类;
(2)计算样品间的距离,将距离最近的两个样品并成一类;
(3)计算新类与其余各类的距离,再将距离最近的两类合并,重复上述步骤直到所有样品归成一类为止。
三、聚类方法(最短距离法、最长距离法、中间距离法)
类与类之间的距离有许多定义的方法,就产生不同的聚类方法,以下用dij表示样品Xi与Xj间的距离,用Dij表示类Gi与Gj间的距离。首先介绍最短距离法、最长距离法及中间距离法。
(1)
(2)若,则新类Gr与其它各类Gk间距离:
(1)
(2)
b ma c
四、例题 a
例1 已知5个大豆品种及一个指标(荚数/株),试用最短距离法聚类,其观测数据如表
x1
x2
x3
x4
x5
荚数/株
61
解:采用
表1
D0
G1
G2
G3
G4
G5
G1={x1}
0
G2={x2}
0
G3={x3}
0
G4={x4}
0
G5={x5}
0
表2
D1
G6={x1,x2}
G3={x3}
G4={x4}
G5={x5}
G6={x1,x2}
0
G3={x3}
0
G4={x4}
0
G5={x5}
0
表3
D2
G6={x1,x2}
G3={x3}
G7={x4,x5}
G6={x1,x2}
0
G3={x3}
0
G7={x4,x5}
0
表4
D3
G6={x1,x2}
G8={x4,x5,x3}
G6={x1,x2}
0
G8={x4,x5,x3}
0
聚类表
分类数目
品种归类
距离系数
4
{x1,x2},{x3},{x4},{x5}
3
{x1,x2},{x3},{x4,x5}
2
{x1,x2},{x3,x4,x5}
1
{x1,x2,x3,x4,x5}
聚类图(谱系图)
例2 已知七个小麦品种及三个指标,试用最短距离法聚类,其观测数据如表:
单产(公斤/亩)
穗粒数(粒)
千粒重(克)
x1
x2
x3
x4
x5
x6