文档介绍:SPSS聚类分析
梁妙
2010-12-16
选择变量
计算相似性
聚类
聚类结果的解释和证实
聚类分析的步骤
聚类是根据选择的变量对研究对象进行分类,聚类结果仅仅反映了所选变量所定义的数据结构。
变量的特点:
语句类目标密切相关;
反映分类对象的特征;
不同研究对象上的值具有显著差异;
变量之间不应该高度相关
选择变量
相似性反映了研究对象之间的亲疏程度,聚类分析根据研究对象之间的相似性进行分类
相似性测度:相关测度
距离测度
关联测度
计算相似性
皮尔逊相关系数(Pearson correlation)
反映案例在聚类变量上变化模式的相似性,变量值大小的差异对其影响不大。
缺点:忽视变量值大小之间的差异。而实际中更多的重视变量值大小的差异。
相关测度
把每个案例看成m维空间(m为变量个数)中的一点,在m维空间中定义点与点之间的距离,距离越近的点相似程度越高。
侧重变量值的大小,不考虑案例在聚类变量上的变化模式
欧氏距离:sqrt(∑(Xi-Yi)2)
绝对值距离:
明可夫斯基距离
马氏距离
距离测度
聚类变量为分类变量时使用
简单匹配系数(2分变量)
S=(a+d)/(a+b+c+d)
雅克比系数(2分变量) S=a/(a+b+c+d)
果瓦系数(各种测度)
关联测度
选定聚类方法
层次聚类:
最短距离法——两类之间的距离等于A类所有案例与B类所有案例距离最小者
最长距离法——两类之间的距离等于A类所有案例与B类所有案例距离最大者
平均联结法——两类所有案例距离的均值
重心法——两类重心的距离
离差平方和——先使每个案例自成一类,再将离差平方和增加最小的两个类合为一类,直到所有类归为一类。
迭代聚类:K-means
确定形成的类数:根据经验
聚类
层次聚类法确定分类数,检查是否有奇异值,去除奇异值,对剩下的案例重新分类
层次聚类得到的各个类的重心作为迭代聚类法的初始分类中心,再进行聚类
聚类方法选择