文档介绍:第三讲 聚类分析
第一节 什么是聚类
1.1 聚类把所有的观察对象分类:使性质相近的对象分在同一个类,性质差异较大分在不类。也叫Q型聚类。
1.2 聚类过程中,“性质”由一组变量(variables)代表,把它用一个p选择z-score。返回。OK ,得:
这是一张聚类过程表,其中的Stage表示步骤,Cluster Combine表示被合并的类,例如第1步是把8号观察值与9号观察值合并,合并后的新类用Cluster 1即8命名。Coefficients则为被合并的两个类之间的距离或相似系数值。Stage Cluster First Appears
则表示被合并的两个类是否原始类,如果是,则记为0;如果不是,则记它上一次被合并的步骤号,例如Stage 3由第5类与第8类合并为新8类,在Stage Cluster First Appears中Cluster 1为0,表示第5类是原始类,Cluster 2为1,表示第8类不是原始类,而是在Stage 1中生成的新类。最后的Next Stage则表示这一步合并得的新类,下一次在哪一步出现,例如Stage 3合并得的新类5,下一次将在Stage 8出现。
这是聚类结果,由于操作时选择了Save,所以在数据文件中系统已经自动添加了一个结果变量Clu3_1,其中记录了分类结果。
如果到此为止,上述分类难有什么实际用途。还必须表示这三个类的差异之处。为此,运用Means,在对话框中,把5个聚类变量输入Dependent List,把Clu3_1输入Independent List,点击Options ,在其对话框的Cell Statistics中保留4个统计量:Mean、Number of Cases、Minimum、Maximum。返回,OK ,得输出表格Report,读者试解释这三类地区都代表什么发展水平。
第七节 R型聚类介绍
7.1 R型聚类与代表性变量的选择
1.R型聚类即对变量聚类。在变量较多且变量间的相关性较强时,可以用R型聚类法找出代表性变量,以减少变量个数,达到降维的目的。
2.代表性变量及其选择 R型聚类把变量聚为几个类,同一类变量之间有较强的相关性,因此可以从中选择一个变量作为代表。以下介绍代表性变量的选择方法:假设变量X1,X2,X3,X4构成一个类,为选择代表性变量,首先计算变量Xi和Xj的相关系数:rij,i≠j,i, j=1,2,3,4。接着,对每个变量Xj按以下公式计算:
其中mj是Xj所在类的变量个数,此处mj=4。选最大者对应的变量为代表性变量。
7.2 R型聚类举例
例 数据data10,该数据文件列举我国30个省、市、自治区的11个经济发展指标值,这些指标具有较强的相关性。试用R型聚类将这些指标分为3类,并对每一类变量找出代表性变量。
命令Classify \ Hierarchical,打开Hierarchical Cluster Analysis对话框,将变量X1至X11全部输入Variable(s),在Cluster一栏中选择⊙Variables,打开Statistics,在Single solution中键入3 ;返回,打开Method,在Measure中选择Pearson correlation,并在Standardize中选择z-scores。返回,OK。输出文件关于变量分类结果为:
可见,变量分类如下:
第一类:X1,X2,X3;
第二类:X4,X5,X6,X7,X8,X10,X11;
第三类:X9。
以第一类为例,求代表性变量。
首先计算变量X1,X2,X3之间的相关系数。为此,选择命令Correlate \ Bivariate。得相关系数如下:
对于变量X1,有:
相应地,X2和X3有:
由于的值最大,故取X2为第一组变量的代表性变量。
其他两类的代表性变量由读者作为练习求出。
第八节 快速聚类法简介
快速聚类(k-means cluster)是一种基于迭代(iteration)算法的聚类方法,在数据量不大的情况下,不失为一种有效的方法。
使用快速聚类,首先要确定凝聚中心,有几个凝聚中心,就得到几个类。凝聚中心有两种确定法:
1.由系统根据数据情况和指定的类数,自动确定;
2.人工输入。
在产生了凝聚中心后,计算每个点(观察值)到各凝聚中心的距离,并按照距离最近原则归类。
例 数据“物院学生成绩”。用快速聚类法将学生按所示五科成绩分为3类。
将五门学科名称(变量)键入Variables,并将Number of
Clusters的系统默认值2改变为3。点击