文档名称：

第十四聚类分析.ppt

格式：ppt 大小：530KB 页数：28页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

第十四聚类分析.ppt

上传人:qingqihe 2022/6/14 文件大小：530 KB

下载得到文件列表

第十四聚类分析.ppt

相关文档

文档介绍

文档介绍：第十四聚类分析演示文稿
第一页，共二十八页。
（优选）第十四聚类分析
第二页，共二十八页。
1. 聚类的目的
根据已知数据，计算各观察个体或变量之间亲疏关系的统计量（距离或相关系数）。根据某种准则（最短距离法、最长响
最好先进行预处理
10、变量的标准化
变量变异程度相差非常大时需要进行
标准化后会削弱有用变量的作用
第十一页，共二十八页。
11、异常值
影响较大
还没有比较好的解决办法
应尽力避免
12、分类数
从实用角度讲，2～8类比较合适
13、专业意义
一定要结合专业知识进行分析
第十二页，共二十八页。
二、K-means Cluster 过程
属于非系统聚类法的一种
也叫快速聚类\动态聚类、逐步聚类、迭代聚类）（quick cluster method、k-means model ）
适用于样本量很大的情形，用系统聚类法计算的工作量极大，作出的树状图也十分复杂, 不便于分析
第十三页，共二十八页。
1、原理
选择初始凝聚点
根据欧氏距离将每个样品归类
各类的重心代替初始凝聚点
根据欧氏距离将每个样品归类，……
直至达到指定的迭代次数或达到终止迭代的判据要求
第十四页，共二十八页。
2、初始凝聚点
initial cluster seeds ；cluster centers
自动选择
必须给出允许分类的最大个数k
凭经验选择
以初始凝聚点建立一个数据文件,在SPSS的CETERS过程的READ INITIAL FROM选择项中输入该数据文件
第十五页，共二十八页。
3、方法特点
要求已知类别数
可人为指定初始位置
节省运算时间
样本量大于100时有必要考虑
只能使用连续性变量
第十六页，共二十八页。
4、菜单：
Analyze-classify-K means Cluster
5、分析实例(P416 data13-02)
第十七页，共二十八页。
三、Hierarchical Cluster 过程
1、系统聚类的基本思想
相近的聚为一类(以距离表示，样品聚类)
相似的聚为一类(以相似系数表示，变量聚类)
第十八页，共二十八页。
2、方法原理
先将所有n个变量／观测量看成不同的n类；
然后将性质最接近（距离最近）的两类合并为一类；
再从这n-1类中找到最接近的两类加以合并；
依此类推，直到所有的变量／观测量被合为一类；
使用者最后再根据具体的问题和聚类结果来决定应当分为几类。
第十九页，共二十八页。
3、类与类之间的距离
(single linkage)
(complete linkage)
(median method)
(average linkage)
(flexible-beta method)
(centroid method)
(Ward's minimum-variance method)
第二十页，共二十八页。
(Mcquitty's similarity analysis)
(EML)
(density linkage)
(two-stage density linkage)等。
第二十一页，共二十八页。
4、系统聚类法的性质
单调性
中间距离法、重心法不具有单调性
空间的浓缩与扩张
不同聚类法作图，横坐标的范围可相差很大。最短距离法与重心法比较浓缩；可变类平均比较扩张；类平均法比较适中。
第二十二页，共二十八页。
5、有关问题
几种聚类方法获得的结果不一定相同
指标聚类采用相似系数，相似系数大或距离小则表示类间关系密切，为了统一，可采用以下公式变换。
第二十三页，共二十八页。
6、特点
一旦观测/变量被划定类别，其分类结果就不会再进行更改；
可以对变量或记录进行聚类；
变量可以为连续或分类变量；
提供的距离测量方法非常丰富；
运算速度较慢。
第二十四页，共二十八页。
7、变量聚类法
原理与观测量聚类法类似, 只是将标准化后的变量视为“个体”，变量间的相关系数描述“个体”间的相似程度。
第二十五页，共二十八页。
8、路径：
Analyze-Classify- Hierarchical Cluster
9、分析实例（ P428/P437 data13-03/ data11-03）
第二十六页，共二十八页。
、美、法等七个国家的裁判和未经严格