文档介绍:聚类分析与方差分析一、聚类分析(cluster analysis) 1、聚类分析(Cluster Analysis) 简介聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。现实情形 QQ 分组衣物放置朋友,同学网友…有助于快速判断 2、聚类对象聚类的目的待分析对象根据亲疏程度分类提取特征指标 Q型聚类:对样本进行分类 R型聚类:对指标(变量)进行分类两种聚类 Q型聚类:对样本进行分类作用: ; ,聚类谱系图能明确、清楚地表达其数值分类结果; 、全面、合理。 R型聚类:对指标(变量)进行分类作用: ; ,选择主要变量进行回归分析或 Q 型聚类分析。 3、聚类过程与方法构造关系矩阵数据预处理确定最佳分类标准化亲疏关系的描述聚类根据不同方法进行分类类别数 1234 例1、下表给出了 1982 年全国 28个省、市、自治区农民家庭收支情况(这里节选 6个地区, 全部数据见附 1.), 有六个指标,利用调查资料进行聚类分析,为经济发展决策提供依据。地区食品衣着燃料住房生活用品文化生活北京 196 上海 221 广东 183 2118423712 四川 138 贵州 122 云南 124 14163 思考 1:指标单位若不同,应如何处理? 思考 2:如何衡量样本的相似性? 思考 1:指标单位若不同,应如何处理? 思考 2:如何衡量样本的相似性? 若指标单位不同,应消除量纲的影响例如可采用办法:标准分数(z score) 直观: ?距离?夹角?夹角余弦为简化,取两个指标,做平面图θ思考 2:如何衡量样本的相似性? 直观: ?相关系数?夹角余弦所有指标一起考虑,如何处理? 分类思想: 距离(或相似度)相近的划分为同一类。