1 / 49
文档名称:

聚类分析、对应分析、因子分析、主成分分析spss操作入门.ppt

格式:ppt   大小:7,948KB   页数:49页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析、对应分析、因子分析、主成分分析spss操作入门.ppt

上传人:977562398 2021/12/23 文件大小:7.76 MB

下载得到文件列表

聚类分析、对应分析、因子分析、主成分分析spss操作入门.ppt

文档介绍

文档介绍:亲疏程度的判定
距离:将每一个样本看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类;
相似系数:性质越接近的变量或样本,它们的相似系数越接近于1或一l,而彼此无关的变量或样本它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;
聚类方法不同:
系统聚类:又称为层次聚类(hierarchical cluster),聚类过程是按照一定层次进行的;
K均值聚类( K-means Cluster );
聚类对象不同时的聚类类型:
样本之间的聚类:即Q型聚类分析,常用距离来测度样本之间的亲疏程度;
变量之间的聚类:即R型聚类分析,常用相似系数来测度变量之间的亲疏程度;
聚类分析
基本思想:根据所研究的样本或变量在观测数据上表现的不同亲疏程度,采用不同的聚类方法将亲疏程度较大的样本/变量聚合为一类,把另外一些亲疏程度较大的样本/变量聚合为一类,直到把所有的样本/变量都聚合完毕,形成一个由小到大的分类系统 。
第一页,共49页。
聚类分析
聚类主要步骤
选择变量
数据处理
聚类
计算聚类统计量
和聚类分析的目的密切相关;
反映要分类变量的特征;
不同研究对象上的值有明显的差异;
变量之间不能高度相关;
为消除各指标量纲的影响,需对原始数据进行必要的变换处理;
聚类统计量是根据变换以后的数据计算得到的一个新数据;
用于表明各样本或变量间的关系密切程度;
常用的统计量有距离和相似系数两大类;
选择聚类的方法;
确定形成的类数;
结果的
解释和证实
结果的解释是希望对各个类的特征进行准确的描述;
给每类起一个合适的名称;
通常的做法是计算各类在各聚类变量上的均值,对均值进行比较;
第二页,共49页。
聚类分析
系统聚类
例1:利用2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行聚类分析。
数据中所含指数:综合指数、社会结构指数、经济与技术发展指数、人口素质指数、生活质量指数、法制与治安指数;
采用聚类方法:系统聚类
K均值聚类
第三页,共49页。
聚类分析
系统聚类
Agglomeration schedule:输出聚类过程表
Proximity matrix:输出个体之间的距离矩阵
Cluster Membership中None表示不输出样本所属类,Single solution表示当分成n类时各样本所属类,Range of solutions表示当分成m-n类时各样本属性所属类
参与系统聚类的变量选到Variables(s)中
字符型变量作为标记变量选到Lable Cases by中
Cluster中确定聚类类型,是Q型聚类还是R型聚类
Display中Stastics表示输出聚类分析相关统计量Plots表示输出聚类分析相关图形
第四页,共49页。
3
聚类分析
聚类输出结果
3
4
参与聚类的个体或小类
个体或小类距离
计算的是个体还是小类
本次结果将在第几步出现
第五页,共49页。
聚类分析
系统聚类
Dendrogram:聚类树形图
Icicle:冰柱图,其中All clusters表示输出分析中每个阶段的冰柱图,Specified range of clusters表示输出某个阶段的冰柱图,none表示不输出冰柱图
Orientation冰柱图的表现形式,Vertical表示纵向显示,Hhorizontal表示横向显示
第六页,共49页。
聚类分析
聚类输出结果
第七页,共49页。
聚类分析
系统聚类
Clust