文档介绍:2017/11/11
第三节系统聚类方法
类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。
开始时将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类之间的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。
一、基本思想
2017/11/11
x21•
x12•
x22•
x11•
二、最短距离法(single linkage method)
2017/11/11
设有五个样品,每个只测量了一个指标,指标值分别是1,2,6,8,11. 在用最短距离法对这五个样品进行聚类时,样品间采用绝对值距离,现已得到样品间初始距离矩阵如下
G1
G2
G3
G4
G5
G1
0
G2
1
0
G3
5
4
0
G4
7
6
2
0
G5
10
9
5
3
0
试根据以上结果完成下面的聚类过程,将五个样品聚为一类。
2017/11/11
data exam7_3_1_1;
input v $ x;
cards;
x1 1
x2 2
x3 6
x4 8
x5 11
;
proc cluster method=sin;
var x;
id v;
proc tree horizontal=1;
id v;
run;
SAS程序1
2017/11/11
data exam7_3_1_2(type=distance);
array x(5)x1-x5;
input v $ x1-x5;
cards;
x1 0 . . . .
x2 1 0 . . .
x3 5 4 0 . .
x4 7 6 2 0 .
x5 10 9 5 3 0
;
proc cluster method=sin;
var x1-x5;
id v;
proc tree horizontal;
id v;
run;
SAS程序2
2017/11/11
聚类树形(谱系)图
2017/11/11
•
•
•
x11•
x21•
•
•
•
三、 plete linkage method)
2017/11/11
对305名女中学生测量八个体型指标:
x1= 身高, x5= 体重,
x2= 手臂长, x6= 颈围,
x3= 上肢长, x7= 胸围,
x4= 下肢长, x8= 胸宽,
相关矩阵列于下表
x1
x2
x3
x4
x5
x6
x7
x8
x1
.
.
.
.
.
.
.
x2
.
.
.
.
.
.
x3
.
.
.
.
x4
.
.
.
.
x5
.
.
.
x6
.
.
x7
.
x8
2017/11/11
应用最长距离法进行聚类,即类与类之间的相似系数定义为两类变量之间的最小相关系数。每次聚类时合并两个相关系数最大的类。
2017/11/11
data examp7_3_2(type=distance);
array x(8) x1-x8;
input v $ x1-x8;
do i=1 to 8;
x(i)=1-x(i);
end;
drop i;
cards;
x1 . . . . . . .
x2 .846 . . . . . .
x3 .805 .881 . . . . .
x4 .859 .826 .801 . . . .
x5 .473 .376 .380 .436 . . .
x6 .398 .326 .319 .329 .762 . .
x7 .301 .277 .237 .327 .730 .583 .
x8 .382 .415 .345 .365 .629 .577 .539
;
proc print data=examp7_3_2;
run;
proc cluster data=examp7_3_2 ;
var x1