1 / 22
文档名称:

第7章-聚类分析(王斌会).pptx

格式:pptx   大小:1,434KB   页数:22页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第7章-聚类分析(王斌会).pptx

上传人:lxydx 2017/11/23 文件大小:1.40 MB

下载得到文件列表

第7章-聚类分析(王斌会).pptx

相关文档

文档介绍

文档介绍:问题:采用何种方法将样本或指标进行分类处理?
问题提出
聚类方法
模糊聚类法
系统聚类法
快速聚类法(kmeans)
食品
衣着
设备
医疗
交通
教育
居住
杂项
北京








天津








河北








山西








内蒙古








辽宁








吉林








黑龙江

















第7章聚类分析
聚类分析的概念和类型
聚类统计量
系统聚类法
Kmeans聚类法
聚类分析的一些问题

思想:研究样品或指标(变量)之间存在着程度不同的相似性(亲疏),并按相似程度不同将指标和样品形成一个分类系统。
指标
样本
X1
X2

Xp
1
x11
x12

x1p
2
x21
x22

x2p
3
x21
x22

x2p





n
xn1
xn2

xnp
聚类方法类型
R型聚类:对变量的聚类
Q型聚类:对样品的聚类
聚类统计量
定义:用来进行类型划分的统计量,对样品进行划分统计量为距离,对变量进行划分的统计量为相似系数。
聚类
统计量
相似系数
距离
兰氏距离
欧式距离
马氏距离
相关系数
夹角余弦
-样本


(1)明氏距离
q=1,绝对值距离
q=2,欧式距离
q=∞,切比雪夫距离
(2)马氏距离
(3)兰氏距离
(4)程序实现
dist(x,method="euclidean",diag=FALSE,upper=FALSE,p=2)
x 数据矩阵,数据框架
method 计算方法,“euclidean(欧式)”,“maximum(切比雪夫)“,”manhattan(绝对数)”, “canberra(兰氏)“,”binary” or “minkowski(明氏)"
diag 是否包含对角线元素
upper 是否需要上三角
p Minkowski距离的幂次
1
2
3
4
2

3


4



5


5
1
dist(X,)#欧式距离
dist(X,method=“manhattan”) #绝对值距离
1
2
3
4
2
8
3
7
5
4
3
5
6
5
2
6
7
1
-指标
公式:
(1)夹角余弦
(2)相关系数
(3)距离和相关系数转换
系统聚类法





类平均法
最短距离
最长距离
n个样本分成n类
计算任何两类距离
最小距离归为1类
整个过程画成聚类图
离差平方和法
(Ward法)
重心法
中心距离法


(1)最短距离法
距离:
Gp与Gq合并为Gr后,Gr
与其它类Gs之间距离:
(2)最长距离法
距离:
Gp与Gq合并为Gr后,Gr
与其它类Gs之间距离:
(1)最短距离法分析过程
D0
G1
G2
G3
G4
G5
G1
0




G2
0



G3
0


G4
0

G5
0
D1