1 / 20
文档名称:

四.聚类分析.ppt

格式:ppt   大小:1,108KB   页数:20页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

四.聚类分析.ppt

上传人:yzhluyin1 2017/2/23 文件大小:1.08 MB

下载得到文件列表

四.聚类分析.ppt

相关文档

文档介绍

文档介绍:第6 章聚类分析 Cluster Analysis 聚类分析?聚类分析又称群分析,它是研究样品或变量分类问题的一种数据分析方法. 所谓类,通俗地说, 就是指“相近”元素的集合. ?在进行聚类分析之前,人们对总体有几类并不知道,这是它与判别分析的不同之处. ?聚类分析的基本思想是通过定义样品或变量间的“接近程度”的度量,将“相近”的样品或变量归为一类. § 快速聚类法?快速聚类法适用于样品数目较大的数据集的聚类分析.?该方法先将样品粗糙地分为几类,然后再依据样品间的距离逐步调整,直至不能再调整为止. 快速聚类法的步骤 1. 选择聚点聚点(种子)是一批有代表性的样品,它的选择决定了初始分类. 在进行快速聚类之前,要根据实际情况先定下分类的数目 k,: 快速聚类法的步骤⑴根据经验确定 k个样品作为聚点.⑵将n个样品随机地分为 k类,以每类的均值向量作为聚点.⑶最大最小原则. 若要将 n个样品分为 k类,先选择样品中相距最远的两个样品为初始的两个聚点,即选 21, iixx§ 谱系聚类法?谱系聚类法首先视各样品自成一类,然后把最相近(距离最小)的样品聚为小类,再将已聚合的小类按其相近性(用类间距离度量)再聚合.?随着相近性的减弱,最后将一切子类聚合成一个大类, 得到一个按相近性大小聚结起来的谱系图,再进一步根据实际情况确定合适的分类个数. ?谱系聚类的关键是依据样品间的距离定义类与类间的距离,从而按照类间距离从小到大进行聚类. 谱系聚类法的步骤?谱系聚类法的步骤如下: ⑴n个样品开始作为 n个类,计算样品两两之间的距离,得到距离矩阵 D (0): D (0)为n阶对称阵. ???????????????0 0 0 21 2 21 112 )0(??????? nn n ndd dd 谱系聚类法的步骤⑵选择 D (0)中非主对角线上的最小元素,记该元素是d pq,将G p, G q合并成一个新类 G r = {G p, G q }. 在 D (0)中消去 G p, G q所对应的行与列,并加入由新类 G r与其它还未聚合的类间的距离所组成的一行和一列,得到新距离阵 D (1),它较原矩阵降低一阶. 谱系聚类法的步骤⑶从D (1)出发重复步骤⑵的做法得到距离阵 D (2) ,再从D (2)出发重复上述步骤,直到所有的 n个样品聚为一个大类为止.⑷在合并过程中要记下合并样品的编号及两类合并时的距离(称为距离水平),并绘制谱系图. 谱系聚类的计算实例() ?续例 对表 所列的 13个国家可持续发展国力的数据按下列方法进行谱系聚类分析,采用标准化数据聚类并给出聚为 4类的结果. ⑴最短距离法; ⑵最长距离法; ⑶类平均距离法; ⑷重心法.