1 / 60
文档名称:

第七讲聚类分析.ppt

格式:ppt   大小:2,452KB   页数:60页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第七讲聚类分析.ppt

上传人:卓小妹 2022/4/28 文件大小:2.39 MB

下载得到文件列表

第七讲聚类分析.ppt

相关文档

文档介绍

文档介绍:第七讲聚类分析
第1页,共60页,编辑于2022年,星期二
第一节 聚类分析概述
多元统计分析中的分类方法
聚类分析的涵义
聚类分析方法
第2页,共60页,编辑于2022年,星期二
多元统计分
明氏距离(明科夫斯基)
第24页,共60页,编辑于2022年,星期二
欧氏距离
第25页,共60页,编辑于2022年,星期二
绝对值距离
第26页,共60页,编辑于2022年,星期二
切比雪夫距离
第27页,共60页,编辑于2022年,星期二
兰氏距离
第28页,共60页,编辑于2022年,星期二
马氏距离
第29页,共60页,编辑于2022年,星期二
其他距离
斜交空间距离
链距离
第30页,共60页,编辑于2022年,星期二
相似系数
相似系数的定义
常用相似系数
夹角余弦
相关系数
指数相似系数
非参数方法
第31页,共60页,编辑于2022年,星期二
相似系数的定义
第32页,共60页,编辑于2022年,星期二
夹角余弦
第33页,共60页,编辑于2022年,星期二
相关系数
第34页,共60页,编辑于2022年,星期二
指数相似系数
第35页,共60页,编辑于2022年,星期二
非参数方法
第36页,共60页,编辑于2022年,星期二
距离以及相似系数的选择原则
对于同一数据资料,进行聚类分析时,选择的不同的距离公式或者不同的相似系数,聚类结果是不一样的。因为不同的距离公式或者不同的相似系数所反映的样品或指标的亲疏程度的意义是不同,因此,在运用中应该根据不同的实际情况,选择不同距离或相似系数。
实际意义原则
数据性质原则
第37页,共60页,编辑于2022年,星期二
实际意义原则
即所选择的距离或者相似系数应该具有明确的实际意义。比如经济指标之间的相关应该是具有现实的经济联系的。
第38页,共60页,编辑于2022年,星期二
数据性质原则
根据原始数据的各自特点,选择不同的数据变换,再根据不同的数据变换选择不同的距离或者相似系数。
1、若数据进行了标准化,则相关系数与夹角余弦是一致。
2、若聚类分析前已经对变量的相关性作了处理,则通常采用欧氏距离,而不必选用斜交空间距离。
3、所选距离应与所选聚类分析方法一致
(1)若聚类方法为离差平方和法时,距离只能选用欧氏距离;
(2)工作量大小原则。斜交空间距离的计算量一般很大。
总之,在一般情况下,有以下的经验可以借鉴。相关系数的稳定性要强于相似系数,而分辨力却弱于相似系数;使用距离和使用相似系数进行聚类的结果对比,相似系数的计算数值由大到小单调地减少,所以聚类谱系图能够比较明显地反映分群的情况,而使用距离的数据有时呈现非单调性增加,聚类谱系图反映的分群情况就不够明显。
第39页,共60页,编辑于2022年,星期二
第三节 系统聚类分析方法
系统聚类分析的涵义及步骤
系统聚类方法
系统聚类分析方法的统一公式
剩余信息的剔除
谱系分类的确定
系统聚类分析方法的性质
第40页,共60页,编辑于2022年,星期二
系统聚类分析的涵义及步骤
涵义:是在样品距离的基础上,定义类与类之间的距离,首先将几个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止。把这个过程作成一个聚类谱系图。这种方法即系统聚类。
第41页,共60页,编辑于2022年,星期二
系统聚类分析的涵义及步骤
基本思想:
是把样品看成m维(m个指标)空间的点,而把每个变量看成m维空间的坐标轴。
基本方法:
是将n个样品自成一类,先计算1/2n(n-1)个相似性测度或距离,并且把具有最小测度的两个样品合并成两个元素的类,然后按照某种聚类方法计算这个类和其余n-2个样品之间的距离,这样一直持续下去,并类过程中,每一步所做的并类(样品与样品,样品与类、类与类)都要使测度在系统中保持最小,每次减少一类,直到所有样品都归为一类为止。
第42页,共60页,编辑于2022年,星期二
系统聚类分析的涵义及步骤
具体步骤:
数据变换处理;
计算各样品之间的距离,并将距离最近的两个样品并成一类;
选择并计算类与类之间的距离,并将距离最近的两类合并,如果类的个数大于1,则继续并类直到所有样品归为一类;
绘制系统聚类谱系图,按不同的分类标准或不同的分类原则得出不同的分类结果。
第43页,共60页,编