文档介绍：第三讲聚类分析
第一节什么是聚类
1．1 聚类把所有的观察对象分类：使性质相近的对象分在同一个类，性质差异较大分在不类。也叫Q型聚类。
1．2 聚类过程中，“性质”由一组变量(variables)代表，把它用一个p选择z-score。返回。OK ，得：
这是一张聚类过程表，其中的Stage表示步骤，Cluster Combine表示被合并的类，例如第1步是把8号观察值与9号观察值合并，合并后的新类用Cluster 1即8命名。Coefficients则为被合并的两个类之间的距离或相似系数值。Stage Cluster First Appears
则表示被合并的两个类是否原始类，如果是，则记为0；如果不是，则记它上一次被合并的步骤号，例如Stage 3由第5类与第8类合并为新8类，在Stage Cluster First Appears中Cluster 1为0，表示第5类是原始类，Cluster 2为1，表示第8类不是原始类，而是在Stage 1中生成的新类。最后的Next Stage则表示这一步合并得的新类，下一次在哪一步出现，例如Stage 3合并得的新类5，下一次将在Stage 8出现。
这是聚类结果，由于操作时选择了Save，所以在数据文件中系统已经自动添加了一个结果变量Clu3_1，其中记录了分类结果。
如果到此为止，上述分类难有什么实际用途。还必须表示这三个类的差异之处。为此，运用Means，在对话框中，把5个聚类变量输入Dependent List，把Clu3_1输入Independent List，点击Options ,在其对话框的Cell Statistics中保留4个统计量：Mean、Number of Cases、Minimum、Maximum。返回，OK ,得输出表格Report，读者试解释这三类地区都代表什么发展水平。
第七节 R型聚类介绍
7．1 R型聚类与代表性变量的选择
1．R型聚类即对变量聚类。在变量较多且变量间的相关性较强时，可以用R型聚类法找出代表性变量，以减少变量个数，达到降维的目的。
2．代表性变量及其选择 R型聚类把变量聚为几个类，同一类变量之间有较强的相关性，因此可以从中选择一个变量作为代表。以下介绍代表性变量的选择方法：假设变量X1,X2,X3,X4构成一个类，为选择代表性变量，首先计算变量Xi和Xj的相关系数：rij，i≠j，i, j=1,2,3,4。接着，对每个变量Xj按以下公式计算：
其中mj是Xj所在类的变量个数，此处mj=4。选最大者对应的变量为代表性变量。
7．2 R型聚类举例
例数据data10，该数据文件列举我国30个省、市、自治区的11个经济发展指标值，这些指标具有较强的相关性。试用R型聚类将这些指标分为3类，并对每一类变量找出代表性变量。
命令Classify \ Hierarchical，打开Hierarchical Cluster Analysis对话框，将变量X1至X11全部输入Variable(s)，在Cluster一栏中选择⊙Variables，打开Statistics，在Single solution中键入3 ；返回，打开Method，在Measure中选择Pearson correlation，并在Standardize中选择z-scores。返回，OK。输出文件关于变量分类结果为：
可见，变量分类如下：
第一类：X1，X2，X3；
第二类：X4，X5，X6，X7，X8，X10，X11；
第三类：X9。
以第一类为例，求代表性变量。
首先计算变量X1，X2，X3之间的相关系数。为此，选择命令Correlate \ Bivariate。得相关系数如下：
对于变量X1，有：
相应地，X2和X3有：
由于的值最大，故取X2为第一组变量的代表性变量。
其他两类的代表性变量由读者作为练习求出。
第八节快速聚类法简介
快速聚类(k-means cluster)是一种基于迭代(iteration)算法的聚类方法，在数据量不大的情况下，不失为一种有效的方法。
使用快速聚类，首先要确定凝聚中心，有几个凝聚中心，就得到几个类。凝聚中心有两种确定法：
1．由系统根据数据情况和指定的类数，自动确定；
2．人工输入。
在产生了凝聚中心后，计算每个点（观察值）到各凝聚中心的距离，并按照距离最近原则归类。
例数据“物院学生成绩”。用快速聚类法将学生按所示五科成绩分为3类。
将五门学科名称（变量）键入Variables，并将Number of
Clusters的系统默认值2改变为3。点击