1 / 148
文档名称:

聚类分析课件.ppt

格式:ppt   大小:9,153KB   页数:148页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析课件.ppt

上传人:文库新人 2022/4/5 文件大小:8.94 MB

下载得到文件列表

聚类分析课件.ppt

文档介绍

文档介绍:关于聚类分析
*
第一页,共148页幻灯片
*
聚类分析的基本思想及意义
聚类分析是研究分类问题的多元数据分析方法
聚类分析是数值分类学的一分支
在经济学中有广泛的应用背景
城镇居民收入分析
省消费水平的接近程度。
第十三页,共148页幻灯片
*
聚类分析中的常用距离
绝对距离
Minkowski距离

当 时分别是欧式距离、绝对距离。Minkowski距离又称 距离, 距离即欧式距离, 距离即绝对距离。
第十四页,共148页幻灯片
*
聚类分析中的常用距离
Chebyshev距离

Chebyshev距离是Minkowski距离当 时的极限。
第十五页,共148页幻灯片
*
聚类分析中的常用距离
以上距离与各变量指标的量纲有关,为消除量纲的影响,有时应先对数据进行标准化,然后用标准化数据计算距离。标准化数据
其中
第十六页,共148页幻灯片
*
聚类分析中的常用距离
方差加权距离
对标准化数据 计算欧式距离时,即是方差加权距离。
第十七页,共148页幻灯片
*
聚类分析中的常用距离
马氏距离
其中 是由样品 算得的协方差矩阵:
其中
第十八页,共148页幻灯片
*
快速聚类法
在谱系聚类法中,因为样品一旦被归到某个类后就不变了,所以要求分类方法比较准确。而样品容量较大时,谱系聚类法的计算量过大。因此,为了弥补谱系聚类法的不足,产生了快速聚类法,又称动态聚类法。
快速聚类法先将样品粗糙地分一下类,然后再按照某种原则进行修正,直至分类比较合理为止。
第十九页,共148页幻灯片
*
快速聚类法
选择聚点
最终分类
合理
初始分类
分类是否合理
修改分类
不合理
第二十页,共148页幻灯片
*
快速聚类法的步骤
选择聚点
聚点(种子)是一批有代表性的样品,它的选择决定了初始分类,对最终分类有较大影响。
在进行快速聚类法前,要根据研究问题的要求及了解程度先定下分类数k,这样就可以在每一类中选择一个有代表性的样品作为聚点(初始聚点)。
第二十一页,共148页幻灯片
*
快速聚类法的步骤
如何选择聚点?
1)经验选择。如果对研究对象比较了解,根据以往的经验定下k个样品作为聚点。
2)将n个样品人为地(或随机地)分成k类,以每类的重心作为聚点。
第二十二页,共148页幻灯片
*
快速聚类法的步骤
3)最小最大原则。
设要将n个样品分成k类,先选择所有样品中距离最远的两个样品 为前两个聚点,即选择 和 ,

然后,选择第3个聚点 ,使得 与前两个聚点的距离最小者等于所有其余的与 的最小距离中最大的,用公式表示为
第二十三页,共148页幻灯片
*
快速聚类法的步骤
然后按相同的原则选取 ,依次下去,直至选定
个聚点 。
若已选了L个聚点(L<k),则第L+1个聚点选取的原则为
第二十四页,共148页幻灯片
*
快速聚类法的步骤
注:在SAS系统proc fastclus过程中,分类数k是事先给定的。在给定k以后, proc fastclus过程会按上述方法算出初始聚点的。
第二十五页,共148页幻灯片
*
快速聚类法的计算步骤
先假设聚类中采用的距离是欧式距离,即
1)设k个初始聚点的集合是
用下列原则实现初始分类。记
这样,将样品分成不相交的k类。以上初始分类的
原则是每个样品以最靠近的初始聚点归类。
第二十六页,共148页幻灯片
*
快速聚类法的计算步骤
依照以上计算,得到一个初始分类
2)从 出发,计算新的聚点集合 。以 的重心
作为新的聚点:
其中 是类 中的样品数。这样,得到新的聚点集合:
第二十七页,共148页幻灯片
*
快速聚类法的计算步骤
从 出发,将样品作新的分类。记
得到分类
这样,依次重复计算下去。
第二十八页,共148页幻灯片
*
快速聚类法的计算步骤
3)设在第m步得到分类
在以上递推计算过程中, 是类