1 / 28
文档名称:

第十四聚类分析.ppt

格式:ppt   大小:530KB   页数:28页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第十四聚类分析.ppt

上传人:qingqihe 2022/6/14 文件大小:530 KB

下载得到文件列表

第十四聚类分析.ppt

相关文档

文档介绍

文档介绍:第十四聚类分析演示文稿
第一页,共二十八页。
(优选)第十四聚类分析
第二页,共二十八页。
1. 聚类的目的
根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长响
最好先进行预处理
10、变量的标准化
变量变异程度相差非常大时需要进行
标准化后会削弱有用变量的作用
第十一页,共二十八页。
11、异常值
影响较大
还没有比较好的解决办法
应尽力避免
12、分类数
从实用角度讲,2~8类比较合适
13、专业意义
一定要结合专业知识进行分析
第十二页,共二十八页。
二、K-means Cluster 过程
属于非系统聚类法的一种
也叫快速聚类\动态聚类、逐步聚类、迭代聚类)(quick cluster method、k-means model )
适用于样本量很大的情形,用系统聚类法计算的工作量极大,作出的树状图也十分复杂, 不便于分析
第十三页,共二十八页。
1、原理
选择初始凝聚点
根据欧氏距离将每个样品归类
各类的重心代替初始凝聚点
根据欧氏距离将每个样品归类,……
直至达到指定的迭代次数或达到终止迭代的 判据要求
第十四页,共二十八页。
2、初始凝聚点
initial cluster seeds ;cluster centers
自动选择
必须给出允许分类的最大个数k
凭经验选择
以初始凝聚点建立一个数据文件,在SPSS的CETERS过程的READ INITIAL FROM选择项中输入该数据文件
第十五页,共二十八页。
3、方法特点
要求已知类别数
可人为指定初始位置
节省运算时间
样本量大于100时有必要考虑
只能使用连续性变量
第十六页,共二十八页。
4、菜单:
Analyze-classify-K means Cluster
5、分析实例(P416 data13-02)
第十七页,共二十八页。
三、Hierarchical Cluster 过程
1、系统聚类的基本思想
相近的聚为一类(以距离表示,样品聚类)
相似的聚为一类(以相似系数表示,变量聚类)
第十八页,共二十八页。
2、方法原理
先将所有n个变量/观测量看成不同的n类;
然后将性质最接近(距离最近)的两类合并为一类;
再从这n-1类中找到最接近的两类加以合并;
依此类推,直到所有的变量/观测量被合为一类;
使用者最后再根据具体的问题和聚类结果来决定应当分为几类。
第十九页,共二十八页。
3、类与类之间的距离
(single linkage)
(complete linkage)
(median method)
(average linkage)
(flexible-beta method)
(centroid method)
(Ward's minimum-variance method)
第二十页,共二十八页。
(Mcquitty's similarity analysis)
(EML)
(density linkage)
(two-stage density linkage)等。
第二十一页,共二十八页。
4、系统聚类法的性质
单调性
中间距离法、重心法不具有单调性
空间的浓缩与扩张
不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。
第二十二页,共二十八页。
5、有关问题
几种聚类方法获得的结果不一定相同
指标聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换。
第二十三页,共二十八页。
6、特点
一旦观测/变量被划定类别,其分类结果就不会再进行更改;
可以对变量或记录进行聚类;
变量可以为连续或分类变量;
提供的距离测量方法非常丰富;
运算速度较慢。
第二十四页,共二十八页。
7、变量聚类法
原理与观测量聚类法类似, 只是将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程度。
第二十五页,共二十八页。
8、路径:
Analyze-Classify- Hierarchical Cluster
9、分析实例( P428/P437 data13-03/ data11-03)
第二十六页,共二十八页。
、美、法等七个国家的裁判和未经严格