文档介绍:聚类分析方法
基于SPSS应用软件
精选ppt
(一) 聚类分析的一般问题
聚类分析是统计中研究物以类聚的多元统计分析方法,针对的是生活中广泛存在的聚类现象和形成的统计分析方法;
例如:市场细分和客户细分问题70 .42
Miller-lite .43
Sudeiser-lich .44
Coors .44
Coorslicht .46
Michelos-lich .50
Secrs .76
Kkirin .79
Pabst-extra-l .36
Hamms .43
Heilemans-old .43
Olympia-gold- .46
Schlite-light .47
精选ppt
分层聚类的命令:执行
[Analyze][Classify][Hierarchical Cluster],
精选ppt
精选ppt
选择变量进入“Variable(s)”中
选择聚类类型“Cluster”(单选项):
样本聚类Cases(“Q聚类”)或变量聚类Variable(“R聚类”)
“display”中可以选择(复选项) :
“Statistics”只计算统计分析。
“plots”只产生图像。
精选ppt
按钮“Statistics”将产生输出统计量:
精选ppt
“Agglomeration schedule”为生成并类过程表。在表中将显示并类过程中的并类信息,包括:并类距离值、在相应值上的并类类别和类间关系。可以根据并类过程表了解聚类过程。
“Proximity matrix”产生测度矩阵。测度矩阵可以显示出并类过程中各类之间的距离或相关性。
“Cluster Membership”聚类成员关系表。在并类过程中,各个个案被并到哪一类:
精选ppt
“None” 不显示聚类成员关系表。
“Single solution”显示指定类数时聚类成员关系表。指定的类数应当是小于等于个案个数,大于等于1的整数。当聚类到达此指定的数值时,将在输出窗口显示各个个案所属的类。
“Range of solutions” 显示聚类成员在指定并类范围内所属类的关系表。指定的范围也应当是在个案数与1之间的整数。
精选ppt
按钮“Plots”将产生聚类图形
精选ppt
“Dendrogram”生成树状图
“Icicle”生成冰柱图
“All clusters”全过程冰柱图
“Specified range of clusters”指定并类范围冰柱图
“None”不生成冰柱图
“Orientaton”图形取向:
竖直的Vertical和水平的Horizontal
精选ppt
按钮“Method”为聚类方法选择
精选ppt
定义样本点间的相似度。
精选ppt
选择对变量作标准化处理的方法
精选ppt
精选ppt
(三) K-Means 聚类
层次聚类执行效率不是很理想,而这方面正是K-Means聚类的特长;
K-Means聚类分析的核心步骤
第一步,指定聚类的数目,假设要分成K类;
第二步,确定类的初始中心;可以有两种方式指定类的初始中心,可以用户自定义,也可以让系统自己确定;
第三步,根据距离最近原则进行聚类;
重新确定K个类的中心;
判断是否满足停止聚类分析的条件;
精选ppt
K均值法(快速聚类、动态聚类)
精选ppt
1. K-Means聚类分析的核心步骤
聚类分析终止的条件有两个:
迭代次数,当前迭代次数等于设定的迭代次数,SPSS默认迭代10次便终止聚类;
类中心点偏移的程度,以迭代前后中心点的最大偏移量是否超过预定值,;
通过设定恰当的迭代次数和偏移标准,可以有效克服初始类中心点指定时可能存在的方差,提高聚类分析准确性;
精选ppt
在Method框中是否调整类中心点,其中Iterate and classify表示由SPSS自动调整类中心,Classify表示在迭代中不更改类