文档介绍：第九章
SPSS聚类分析
1
本章内容
聚类分析的一般问题
层次聚类
K-Means聚类
2
聚类分析的一般问题
聚类分析的意义
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。
聚类分析是一种建立分类的多元统计分析方法，它能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度（各变量取值上的总体差异程度）在没有先验知识（没有事先指定的分类标准）的情况下进行自动分类，产生多个分类结果。类内部的个体在特征上具有相似性，不同类间个体特征的差异性较大。
3
例如，学校里有些同学经常在一起，关系比较密切，而他们与另一些同学却很少来往，关系比较疏远。究其原因可能会发现，经常在一起的同学的家庭情况、性格、学****成绩、课余爱好等方面有许多共同之处，而关系比较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学****成绩、课余爱好等是否会成为划分学生小群体的主要决定因素，可以从有关这些方面的数据入手，进行客观分组，然后比较所得的分组是否与实际相吻合。对学生的客观分组就可采用聚类分析方法。
4
聚类分析中，个体之间的“亲疏程度”是极为重要的，它将直接影响最终的聚类结果。对“亲疏”程度的测度一般有两个角度：第一，个体间的相似程度；第二，个体间的差异程度。衡量个体间的相似程度通常可采用简单相关系数等，个体间的差异程度通常通过某种距离来测度。
为定义个体间的距离应先将每个样本数据看成k维空间的一个点，通常，点与点之间的距离越小，意味着他们越“亲密”，越有可能聚成一类，点与点之间的距离越大，意味着他们越“疏远”，越有可能分别属于不同的类。
聚类分析中“亲疏程度”的度量方法
5
例：下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分，现希望根据这批数据将五座商场分类。
6
聚类分析中“亲疏程度”的度量方法
欧式距离（Euclidean distance）
平方欧式距离（Squared Euclidean distance ）
切比雪夫（Chebychev）距离
Block距离
1、定距型变量个体间距离的计算方式
7
2、计数变量个体间距离的计算方式
卡方（Chi-Square measure）距离
Phi方（Phi-Square measure）距离
3、二值（Binary）变量个体间距离的计算方式
简单匹配系数（Simple Matching）
雅科比系数（Jaccard）
8
注：聚类分析的几点说明
所选择的变量应符合聚类的要求：所选变量应能够从不同的侧面反映我们研究的目的；
各变量的变量值不应有数量级上的差异（对数据进行标准化处理）：聚类分析是以各种距离来度量个体间的“亲疏”程度的，从上述各种距离的定义看，数量级将对距离产生较大的影响，并影响最终的聚类结果。
各变量间不应有较强的线性相关关系
9
层次聚类
层次聚类的两种类型和两种方式
层次聚类又称系统聚类，简单地讲是指聚类过程是按照一定层次进行的。层次聚类有两种类型，分别是Q型聚类和R型聚类；层次聚类的聚类方式又有两种，分别是凝聚方式聚类和分解方式聚类。
Q型聚类：对样本进行聚类，使具有相似特征的样本聚集在一起，差异性大的样本分离开来。
R型聚类：对变量进行聚类，使具有相似性的变量聚集在一起，差异性大的变量分离开来，可在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数，达到变量降维的目的。
10