1 / 11
文档名称:

第四讲聚类分析.doc

格式:doc   大小:141KB   页数:11页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第四讲聚类分析.doc

上传人:260933426 2022/5/26 文件大小:141 KB

下载得到文件列表

第四讲聚类分析.doc

文档介绍

文档介绍:第三讲 聚类分析
第一节 什么是聚类
1.1 聚类把所有的观察对象分类:使性质相近的对象分在同一个类,性质差异较大分在不类。也叫Q型聚类。
1.2 聚类过程中,“性质”由一组变量(variables)代表,把它用一个p选择z-score。返回。OK ,得:
这是一张聚类过程表,其中的Stage表示步骤,Cluster Combine表示被合并的类,例如第1步是把8号观察值与9号观察值合并,合并后的新类用Cluster 1即8命名。Coefficients则为被合并的两个类之间的距离或相似系数值。Stage Cluster First Appears
则表示被合并的两个类是否原始类,如果是,则记为0;如果不是,则记它上一次被合并的步骤号,例如Stage 3由第5类与第8类合并为新8类,在Stage Cluster First Appears中Cluster 1为0,表示第5类是原始类,Cluster 2为1,表示第8类不是原始类,而是在Stage 1中生成的新类。最后的Next Stage则表示这一步合并得的新类,下一次在哪一步出现,例如Stage 3合并得的新类5,下一次将在Stage 8出现。
这是聚类结果,由于操作时选择了Save,所以在数据文件中系统已经自动添加了一个结果变量Clu3_1,其中记录了分类结果。
如果到此为止,上述分类难有什么实际用途。还必须表示这三个类的差异之处。为此,运用Means,在对话框中,把5个聚类变量输入Dependent List,把Clu3_1输入Independent List,点击Options ,在其对话框的Cell Statistics中保留4个统计量:Mean、Number of Cases、Minimum、Maximum。返回,OK ,得输出表格Report,读者试解释这三类地区都代表什么发展水平。
第七节 R型聚类介绍
7.1 R型聚类与代表性变量的选择
1.R型聚类即对变量聚类。在变量较多且变量间的相关性较强时,可以用R型聚类法找出代表性变量,以减少变量个数,达到降维的目的。
2.代表性变量及其选择 R型聚类把变量聚为几个类,同一类变量之间有较强的相关性,因此可以从中选择一个变量作为代表。以下介绍代表性变量的选择方法:假设变量X1,X2,X3,X4构成一个类,为选择代表性变量,首先计算变量Xi和Xj的相关系数:rij,i≠j,i, j=1,2,3,4。接着,对每个变量Xj按以下公式计算:
其中mj是Xj所在类的变量个数,此处mj=4。选最大者对应的变量为代表性变量。
7.2 R型聚类举例
例 数据data10,该数据文件列举我国30个省、市、自治区的11个经济发展指标值,这些指标具有较强的相关性。试用R型聚类将这些指标分为3类,并对每一类变量找出代表性变量。
命令Classify \ Hierarchical,打开Hierarchical Cluster Analysis对话框,将变量X1至X11全部输入Variable(s),在Cluster一栏中选择⊙Variables,打开Statistics,在Single solution中键入3 ;返回,打开Method,在Measure中选择Pearson correlation,并在Standardize中选择z-scores。返回,OK。输出文件关于变量分类结果为:
可见,变量分类如下:
第一类:X1,X2,X3;
第二类:X4,X5,X6,X7,X8,X10,X11;
第三类:X9。
以第一类为例,求代表性变量。
首先计算变量X1,X2,X3之间的相关系数。为此,选择命令Correlate \ Bivariate。得相关系数如下:
对于变量X1,有:
相应地,X2和X3有:
由于的值最大,故取X2为第一组变量的代表性变量。
其他两类的代表性变量由读者作为练习求出。
第八节 快速聚类法简介
快速聚类(k-means cluster)是一种基于迭代(iteration)算法的聚类方法,在数据量不大的情况下,不失为一种有效的方法。
使用快速聚类,首先要确定凝聚中心,有几个凝聚中心,就得到几个类。凝聚中心有两种确定法:
1.由系统根据数据情况和指定的类数,自动确定;
2.人工输入。
在产生了凝聚中心后,计算每个点(观察值)到各凝聚中心的距离,并按照距离最近原则归类。
例 数据“物院学生成绩”。用快速聚类法将学生按所示五科成绩分为3类。
将五门学科名称(变量)键入Variables,并将Number of
Clusters的系统默认值2改变为3。点击

最近更新

电子商务服务合同书模板范本2025年通用 13页

盒饭订餐协议书书2025年通用 12页

2023年黑龙江考研英语一真题及答案 14页

破桩头施工分包合同书范本定稿(2025版) 17页

私人房屋装修施工合同书范本2025年通用 18页

石灰石供应合同书模板(2025版) 15页

砌墙工程承包合同书范文(2025版) 14页

创新突破:工程设计新篇章-探索核心技术,引领.. 27页

离婚协议书书范文简易2025年通用 11页

2023湖南省建筑安全员-C证(专职安全员)考试题.. 33页

种子买卖合同书种子买卖合同书协议书书2025年.. 12页

旅行社加盟协议书 4页

杂志刊登广告合同完整版样书 3页

出租车新时代:客户体验至上-创新驾驭,顺应市.. 35页

2024年吉林省安全员《B证》考试题库及答案 30页

内河旅客运输:年终总结汇报-公司副总经理演讲.. 28页

超市零食区墙面壁纸装修 7页

展会消防安全协议书 3页

超市装修保修合同样本 6页

超市木工改造工程承包合同 7页

2025年试验检测师之交通工程题库附答案(综合.. 165页

2025年资料员题库及参考答案【完整版】 105页

优秀毕业论文答辩攻略-研究成果展示与回答问题.. 23页

资源回收居间合同范本 7页

企业水资源卫士-构建高效可持续的水资源管理方.. 27页

贵重危险品押运合同模板 7页

2023年山东省安全员考试题库及答案 32页

社区工作者考试(选择题200题)附参考答案【名师.. 62页

社区工作者考试300题及答案 92页

社区工作者考试试题库300道【巩固】 93页