1 / 44
文档名称:

聚类分析clusteranalysis.ppt

格式:ppt   大小:743KB   页数:44页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析clusteranalysis.ppt

上传人:核辐射 2022/6/25 文件大小:743 KB

下载得到文件列表

聚类分析clusteranalysis.ppt

相关文档

文档介绍

文档介绍:聚类分析clusteranalysis
(二)最长距离法 (complete linkage,furthest neighbor)
B2
A2 *
* B1 A1
* 聚类分析clusteranalysis
(二)最长距离法 (complete linkage,furthest neighbor)
B2
A2 *
* B1 A1
* *
B3
*
样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离
(三)中间距离法 (median method)
最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离
K
L
J
M
(四)中间距离法的变形 ——可变法
(五)类平均法 (average linkage between group)
SPSS作为默认方法,称为 between-groups linkage
K
L
J
M
(六)可变类平均法 (flexible-beta method)
类平均法的变型
K
L
J
M
(七)重心法 (centroid method)
B2
A2 *
* B1 A1
* *
B3
*
类类间的距离用各自重心间的距离表示
(八)Ward最小方差法 (Ward’ minimum variance method)
先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSM-SSK-SSL)最小的两类合并,直至所有的样品归为一类为止。
(九)八种系统聚类方法的统一
以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为:
八种系统聚类法公式的参数
系统聚类法的性质
单调性
中间距离法、重心法不具有单调性
空间的浓缩与扩张
不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。
有关问题
几种聚类方法获得的结果不一定相同
指标聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换。
五、快速聚类法 (quick cluster method k-means model ) 也叫动态聚类、逐步聚类、迭代聚类)
样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂, 不便于分析
原理
选择初始凝聚点
根据欧氏距离将每个样品归类
各类的重心代替初始凝聚点
根据欧氏距离将每个样品归类,……
直至分类达到稳定
初始凝聚点 initial cluster seeds ;cluster centers
自动选择
必须给出允许分类的最大个数k( SAS中用MAXCLUSTERS=k(或MAXC=k) )
凭经验选择
以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件
六、变量聚类法
原理与以上聚类法类似, 只是将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程度。 SAS中采用VARCLUS过程。
七、小结
与判别分析的区别(作用,数据要求?)
聚类分析是一种探索性技术,对于同一问题,可获得多种结果,解释需要结合专业知识
样品量大可采用快速聚类方法
变量的形式?距离与相似系数?
系统聚类常用方法?
存在的问题
分类数的确定
专业知识
聚类方法的选择
试用多种方法,系统聚类与快速聚类相结合
(一)SPSS聚类分析
八、软件计算与实例分析

指定参与聚类的变量名和样品号
Statistics
聚类进度表
相似矩阵
样品或变量的分类情况
Plot
树状结构图
冰柱图
冰柱的方向
Method
聚类方法
标准化变换
亲疏关系指标
Method
将分类结果存入数据文件中