文档介绍:分层聚类,又称层次聚类,是指聚类过程是按照一定层次进行的。如果需要按变量(标题) 聚类,此时应该使用分层聚类,并且结合聚类树状图进行综合判定分析,得出科学分析结果。
分成聚类的基本思想是:
在聚类分析的开始,每个样本(或变量)单独作为一分层聚类,又称层次聚类,是指聚类过程是按照一定层次进行的。如果需要按变量(标题) 聚类,此时应该使用分层聚类,并且结合聚类树状图进行综合判定分析,得出科学分析结果。
分成聚类的基本思想是:
在聚类分析的开始,每个样本(或变量)单独作为一组,然后按照某种方法度量所有样本(或 变量)之间的亲疏程度,把距离相近的先样本(或变量)先聚成类,距离相远的后聚成类, 如此反复,直到所有样本(或变量)聚成一类为止。
分层聚类有几点需要特别注意:
1:仅针对定量数据进行分层聚类;
2:如果数据的单位有较大差别,可首先对于数据进行标准化处理后,针对标准化数据进行
分层聚类;
SPSSAU用户可点击数据处理-生成变量-选择标准化(S),进行数据标准化处理。
生成变呈 Q
平均恒 ▼ 肓酋人变呈肓称
拥口
乘枳
中化[Cj 邸哑I超 干方Qq】 抿号(Sqr) 三綁啟[Ln)
10为底对数(Log10)
正向化(MMS) 逆向化(MMS) 三次方("uhe] 怛数(Reciprccalj
3 :由于均为定量数据,因而从原理角度上,分层聚类时应该使用Pearson相关系数去度量 距离,相关系数值越大说明越紧密,则说明距离越近,相关系数值越小说明越疏远,说明距 离越远;SPSSAU默认使用Pearson相关系数表示距离大小;
案例分析
1、 背景
当前有8个裁判对300名选手打分,最低分为1分,最高分为10分;希望对8个裁判进 行聚类,以识别出裁判的风格类型。总共8个裁判共有8列数据,并且共有300行。由于 打分全部均是从1到10分,8列数据的单位均一样,因此在分析之前不需要进行标准化数 据(当然进行标准化处理也没有问题)。
2、 操作步骤
本案例中总共涉及8个标题,SPSSAU操作截图如下:
SPSSAU会默认聚类为3类并且呈现表格结果,如果希望更多的类别个数,可自行进行设 置。
3、SPSSAU输出结果
SPSSAU会首先输出聚类项的基本描述情况,妾着输出每项的聚类类别归属情况;并且输出
树状图,如下所述:
■ —--r—. fa J. »—° ■呼E
4xc
上表格展示总共8个分析项(即8个裁判数据)的基本情况,包括均值,最大或者最小值, 中位数等,以便对于基础数据有个概括性了解。整体上看,8个裁判的打分基本平均在8分 以上。
特别提示
上表格中的值与聚类的原理基本没有关联性,请勿将上表格信息与聚类结果产生联系
%分析建议
分层聚类针対走星数据进行研兄探叢分■析顶的类别归扃首元可对分析巧基不持征逬行描述;
第一:描述分层聚类分析的基不情况,选挥分析项迸行鑒类国原因等:
第二:描逮聚类项的基本特显情况-卅对乂均值或中位数逬