1 / 18
文档名称:

4聚类分析班.ppt

格式:ppt   大小:247KB   页数:18页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

4聚类分析班.ppt

上传人:wawasa1234 2022/2/27 文件大小:247 KB

下载得到文件列表

4聚类分析班.ppt

相关文档

文档介绍

文档介绍:第四章
聚类分析
Cluster Analysis
*
ad
一、聚类分析的作用和性质
聚类分析是根据事物本身的特性来研究个体分类的方法。原理是保证类别内部的差异尽可能小,而类别间的差异尽可能大。(有限样本,分类特征多个)
应用dendrogram聚类树状图。
可增加在Save对话框中选择range of solutions,确定最大和最小类别数,即可在数据库中出现新的类别变量。
*
ad
具体聚类方法的选择:
SPSS提供七种具体的聚类方法〔最短、最长距离法,重心法,组间平均距离法等〕,默认为between-groups linkage组间连接法,一般认为ward’s method离差平方和法〔亦称最小方差法〕更好。假设选择该方法,下面的相似性测量一定需要选择平方欧式距离。〔Analyze-classify- hierarchical cluster〕
聚类方法与距离计算并不一样,二者组合使用,可以得到让研究者更满意的结果。
*
ad
SPSS输出结果说明:〔与K均值聚类法一样的表格不再说明〕
Agglomeration schedule聚类凝聚过程表:报告聚类的全过程,但难以从中获得聚类结论。但有时需要查看聚类系数,当该系数突然增大时,可能即是聚类该完毕的地方,可用于辅助判断类别数。
可继续观察cluster membership表和dendrogram聚类树状图,辅助得出聚类结论。
*
ad
四、聚类结果及其证实
聚类结果受聚类变量、聚类方法及特异值的影响,假设聚类结果不理想,可适当改变聚类变量和方法,也可将特异值剔除后再做分析。
聚类结果出现后可以进展统计证实,即通过检验不同类别的样本在聚类变量上差异性情况进展证实。郭P141。K均值聚类中SPSS提供方差分析表。
数据外分析认定。结合理论和实践的理解,反映在对聚类结果的认可及其后的文字说明上〔最困难的一步〕。Date -select cases- 或〔analyze-compare means –means〕 注意:measure里是scale而不是nominal
*
ad
应用实例:
王放?中国分区域人力资源竞争力评价研究?〔教育部课题〕
聚类变量为表23中的十三项指标,聚类数据为前述全国三十一个省、市、自治区这十三项指标的相应指标值。在聚类分析中,本文采用的方法是层次聚类〔hierarchical cluster 〕法中的离差平方和法〔Ward’s method〕,距离选择欧氏距离的平方〔Squared Euclidean distance〕。由于十三个变量的测量单位不一致,所以首先对其进展了标准化处理 。
*
ad
表25 中国大陆各省、市、自治区人力资源竞争力聚类分析结果
*
ad
第Ⅰ类:由东部地区的北京、天津、辽宁、上海四个省、市组成。这四个省、市的劳动力年龄人口比例、15岁及以上人口平均受教育年限、平均预期寿命、三级教育综合入学率、社会劳动生产率都处于很高的水平。15岁及以上人口平均受教育年限和社会劳动生产率在全国三十一个省、市、自治区中占据了前四名;而北京、天津、上海的平均预期寿命、三级教育综合入学率那么位居前三名。由于人口出生率在全国三十一个省、市、自治区中位居最后四位,因此其0~14岁人口比例也位居最后四位,但65岁及以上人口比重那么属于较高水平。15岁及以上人口中文盲人口的比重相当低,在全国三十一个省、市、自治区中属于最后五位之列。
*
ad
第Ⅲ类:由河北、山西、内蒙、吉林、黑龙江、安徽、福建、江西、河南、湖北、湖南、广西、海南、重庆、四川、陕西十六个省、市、自治区组成。该类别不仅含盖了中部地区的所有八个省,还包括东部地区的三个省和西部地区的五个省、市、自治区,是兴旺的东部地区的人力资源竞争力与落后的西部地区人力资源竞争力之间的过渡类型。组成第Ⅲ类的省、市、自治区超过了中国大陆一半以上的省级单位,因此,可以认为该类别的人力资源竞争力状况根本上可以反映当前中国人力资源竞争力的总体水平。从总体来看,在聚类分析所形成的四类中,该类别的人力资源竞争力的大多数指标值,如15岁及以上人口平均受教育年限、平均预期寿命、三级教育综合入学率、国家财政性教育经费占GDP的比例、0~14岁人口比例、社会劳动生产率、三种专利授权数、15岁及以上人口中文盲人口的比重、65岁及以上人口比重等都属于中等水平。
可以进一步按变量特征将第Ⅲ类分成两个子类:第一个子类由河北、内蒙、吉林、黑龙江、福建、河南、湖北、湖南、陕西九个省、自治区组成;第二个子类由山西、安徽、江西、广西、海南、重庆、四川七个省、市组成。第一个子类在特征上更偏向第Ⅰ类和第Ⅱ类,而第二个子类