1 / 60
文档名称:

第七讲聚类分析.ppt

格式:ppt   大小:2,455KB   页数:60页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第七讲聚类分析.ppt

上传人:卓小妹 2022/8/15 文件大小:2.40 MB

下载得到文件列表

第七讲聚类分析.ppt

相关文档

文档介绍

文档介绍:第七讲聚类分析
第1页,共60页,2022年,5月20日,22点17分,星期六
第一节 聚类分析概述
多元统计分析中的分类方法
聚类分析的涵义
聚类分析方法
第2页,共60页,2022年,5月20日,22点非线性数据结构变为线性结构。
第21页,共60页,2022年,5月20日,22点17分,星期六
距离
距离的条件
常用距离
1、明氏距离
2、欧氏距离
3、绝对值距离
4、切比雪夫距离
5、兰氏距离
以上距离一个共同的特点是,均没有考虑相关性。
6、马氏距离
7、其他距离
第22页,共60页,2022年,5月20日,22点17分,星期六
距离的条件
第23页,共60页,2022年,5月20日,22点17分,星期六
明氏距离(明科夫斯基)
第24页,共60页,2022年,5月20日,22点17分,星期六
欧氏距离
第25页,共60页,2022年,5月20日,22点17分,星期六
绝对值距离
第26页,共60页,2022年,5月20日,22点17分,星期六
切比雪夫距离
第27页,共60页,2022年,5月20日,22点17分,星期六
兰氏距离
第28页,共60页,2022年,5月20日,22点17分,星期六
马氏距离
第29页,共60页,2022年,5月20日,22点17分,星期六
其他距离
斜交空间距离
链距离
第30页,共60页,2022年,5月20日,22点17分,星期六
相似系数
相似系数的定义
常用相似系数
夹角余弦
相关系数
指数相似系数
非参数方法
第31页,共60页,2022年,5月20日,22点17分,星期六
相似系数的定义
第32页,共60页,2022年,5月20日,22点17分,星期六
夹角余弦
第33页,共60页,2022年,5月20日,22点17分,星期六
相关系数
第34页,共60页,2022年,5月20日,22点17分,星期六
指数相似系数
第35页,共60页,2022年,5月20日,22点17分,星期六
非参数方法
第36页,共60页,2022年,5月20日,22点17分,星期六
距离以及相似系数的选择原则
对于同一数据资料,进行聚类分析时,选择的不同的距离公式或者不同的相似系数,聚类结果是不一样的。因为不同的距离公式或者不同的相似系数所反映的样品或指标的亲疏程度的意义是不同,因此,在运用中应该根据不同的实际情况,选择不同距离或相似系数。
实际意义原则
数据性质原则
第37页,共60页,2022年,5月20日,22点17分,星期六
实际意义原则
即所选择的距离或者相似系数应该具有明确的实际意义。比如经济指标之间的相关应该是具有现实的经济联系的。
第38页,共60页,2022年,5月20日,22点17分,星期六
数据性质原则
根据原始数据的各自特点,选择不同的数据变换,再根据不同的数据变换选择不同的距离或者相似系数。
1、若数据进行了标准化,则相关系数与夹角余弦是一致。
2、若聚类分析前已经对变量的相关性作了处理,则通常采用欧氏距离,而不必选用斜交空间距离。
3、所选距离应与所选聚类分析方法一致
(1)若聚类方法为离差平方和法时,距离只能选用欧氏距离;
(2)工作量大小原则。斜交空间距离的计算量一般很大。
总之,在一般情况下,有以下的经验可以借鉴。相关系数的稳定性要强于相似系数,而分辨力却弱于相似系数;使用距离和使用相似系数进行聚类的结果对比,相似系数的计算数值由大到小单调地减少,所以聚类谱系图能够比较明显地反映分群的情况,而使用距离的数据有时呈现非单调性增加,聚类谱系图反映的分群情况就不够明显。
第39页,共60页,2022年,5月20日,22点17分,星期六
第三节 系统聚类分析方法
系统聚类分析的涵义及步骤
系统聚类方法
系统聚类分析方法的统一公式
剩余信息的剔除
谱系分类的确定
系统聚类分析方法的性质
第40页,共60页,2022年,5月20日,22点17分,星期六
系统聚类分析的涵义及步骤
涵义:是在样品距离的基础上,定义类与类之间的距离,首先将几个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止。把这个过程作成一个聚类谱系图。这种方法即系统聚类。
第41页,共60页,2022年,5月20日,22点17分,星期六
系统聚类分析的涵