文档介绍:问题:采用何种方法将样本或指标进行分类处理?
问题提出
聚类方法
模糊聚类法
系统聚类法
快速聚类法(kmeans)
食品
衣着
设备
医疗
交通
教育
居住
杂项
北京
天津
河北
山西
内蒙古
辽宁
吉林
黑龙江
…
…
…
…
…
…
…
…
…
第7章聚类分析
聚类分析的概念和类型
聚类统计量
系统聚类法
Kmeans聚类法
聚类分析的一些问题
思想:研究样品或指标(变量)之间存在着程度不同的相似性(亲疏),并按相似程度不同将指标和样品形成一个分类系统。
指标
样本
X1
X2
…
Xp
1
x11
x12
…
x1p
2
x21
x22
…
x2p
3
x21
x22
…
x2p
…
…
…
…
…
n
xn1
xn2
…
xnp
聚类方法类型
R型聚类:对变量的聚类
Q型聚类:对样品的聚类
聚类统计量
定义:用来进行类型划分的统计量,对样品进行划分统计量为距离,对变量进行划分的统计量为相似系数。
聚类
统计量
相似系数
距离
兰氏距离
欧式距离
马氏距离
相关系数
夹角余弦
-样本
公
式
(1)明氏距离
q=1,绝对值距离
q=2,欧式距离
q=∞,切比雪夫距离
(2)马氏距离
(3)兰氏距离
(4)程序实现
dist(x,method="euclidean",diag=FALSE,upper=FALSE,p=2)
x 数据矩阵,数据框架
method 计算方法,“euclidean(欧式)”,“maximum(切比雪夫)“,”manhattan(绝对数)”, “canberra(兰氏)“,”binary” or “minkowski(明氏)"
diag 是否包含对角线元素
upper 是否需要上三角
p Minkowski距离的幂次
1
2
3
4
2
3
4
5
5
1
dist(X,)#欧式距离
dist(X,method=“manhattan”) #绝对值距离
1
2
3
4
2
8
3
7
5
4
3
5
6
5
2
6
7
1
-指标
公式:
(1)夹角余弦
(2)相关系数
(3)距离和相关系数转换
系统聚类法
取
距
离
方
法
类平均法
最短距离
最长距离
n个样本分成n类
计算任何两类距离
最小距离归为1类
整个过程画成聚类图
离差平方和法
(Ward法)
重心法
中心距离法
(1)最短距离法
距离:
Gp与Gq合并为Gr后,Gr
与其它类Gs之间距离:
(2)最长距离法
距离:
Gp与Gq合并为Gr后,Gr
与其它类Gs之间距离:
(1)最短距离法分析过程
D0
G1
G2
G3
G4
G5
G1
0
G2
0
G3
0
G4
0
G5
0
D1