1 / 26
文档名称:

的聚类分析.ppt

格式:ppt   大小:1,991KB   页数:26页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

的聚类分析.ppt

上传人:qingqihe 2022/6/14 文件大小:1.94 MB

下载得到文件列表

的聚类分析.ppt

相关文档

文档介绍

文档介绍:的聚类分析演示文稿
*
*
第一页,共二十六页。
*
*
(优选)第九的聚类分析
第二页,共二十六页。
例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却很少来往,关系比较疏远。究其原因可能会ter框中选择聚类类型。其中Cases表示进行Q型聚类(默认类型);Variables表示进行R型聚类。
5、在Display框中选择输出内容。其中Statistics表示输出聚类分析的相关统计量;Plot表示输出聚类分析的相关图形。
第十二页,共二十六页。
6、单击Method按钮指定距离的计算方法。
第十三页,共二十六页。
Measure框中给出的是不同变量类型下的个体距离的计算方法。其中Interval框中的方法适用于连续型定距变量;Counts框中的方法适用于计数型变量;Binary框中的方法适用于二值变量。Cluster Method框中给出的是计算个体与小类、小类与小类间距离的方法。
7、如果参与聚类分析的变量存在数量级上的差异,应在Transform Values框中的Standardize选项中选择消除数量级差的方法。并指定处理是针对变量的还是针对样本的。By variable表示针对变量,适于Q型聚类分析;By case表示针对样本,适于R型聚类分析。
第十四页,共二十六页。
8、单击Statistics按钮指定输出哪些统计量
第十五页,共二十六页。
Agglomeration schedule表示输出聚类分析的凝聚状态表;Proximity matrix表示输出个体间的距离矩阵;Cluster Membership框中,None表示不输出样本所属类,Single Solution表示指定输出当分成n类时各样本所属类,是单一解。Range of solution表示指定输出当分成m至n类(m小于等于n)时各样本所属类,是多个解。
第十六页,共二十六页。
9、单击Plot按钮指定输出哪种聚类分析图。
第十七页,共二十六页。
Dendrogram选项表示表示输出聚类分析树形图;在Icicle框中指定输出冰挂图,其中,All clusters表示输出聚类分析每个阶段的冰挂图,Specified range of clusters表示只输出某个阶段的冰挂图,输入从第几步开始,到第几步结束,中间间隔几步;在Orientation框中指定如何显示冰挂图,其中,Vertical表示纵向显示,Horizontal表示横向水平显示。
树形图以躺倒树的形式展现了聚类分析中的每一次类合并的情况。SPSS自动将各类间的距离映射到0~25之间,并将凝聚过程近似地表示在图上。
第十八页,共二十六页。
10、单击Save按钮可以将聚类分析的结果以变量的形式保存到数据编辑窗口中。生成的变量名为clun_m(如clu2_1),其中n表示类数(如2),m表示是第m次分析(如1)。
由于不同的距离计算方法会产生不同的聚类分析结果,即使聚成n类,同一样本的类归属也会因计算方法的不同而不同。因此实际分析中应反复尝试以最终得到符合实际的合理解,并保存于SPSS变量中。
第十九页,共二十六页。
层次聚类的应用举例
1、利用对5个商厦的评分做聚类分析。
2、 例:31个省市自治区小康和现代化指数的层次聚类分析。
利用SPSS层次聚类Q型聚类对31个省市自治区进行分类分析。其中个体距离采用欧式距离,类间距离采用平均组间链锁距离,由于数据不存在数量级上的差异,因此无需进行标准化处理。
第二十页,共二十六页。
K-Means聚类
K-Means聚类分析的核心步骤
K-Means聚类也称快速聚类,仍将数据看成k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率,其核心步骤是:
第一,指定聚类数目K
第二,确定K个初始类中心
SPSS中初始类中心的指定方式有两种:一是用户指定方式;二是系统指定方式。
第二十一页,共二十六页。
第三,根据距离最近原则进行分类
依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类中心点距离最短的原则将所有样本分成K类。
第四,重新确定K个类中心
中心点的确定原则是,依次计算各类中k个变量的均值,并以均值点作为K个类的中心点。
第五,判断是否已满足中止聚类分析的条件
条件有两个:一是迭代次数(SPSS默认为10);二是类中心点偏移程度,即新确定的类中心点距上个类中心点的最大偏移量小于指定的量(