文档介绍:聚类分析与
方差分析
一、聚类分析
(cluster analysis)
1、聚类分析(Cluster Analysis)简介
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。
现实
情形
QQ分组
衣物放置
朋友,同学
网友…
有助于快速判断
2、聚类对象
聚类的目的
待分析对象
根据亲疏程度
分类
提取特征指标
Q型聚类:对样本进行分类
R型聚类:对指标(变量)进行分类
两种聚类
Q型聚类:对样本进行分类
作用:
能利用多个变量对样本进行分类;
分类结果直观,聚类谱系图能明确、清楚地表达其数值分类结果;
所得结果比传统的定性分类方法更细致、全面、合理。
R型聚类:对指标(变量)进行分类
作用:
了解变量间及变量组合间的亲疏关系;
根据变量的聚类结果及它们之间的关系,选择主要变量进行回归分析或Q型聚类分析。
3、聚类过程与方法
构造关系矩阵
数据预处理
确定最佳分类
标准化
亲疏关系的描述
聚类
根据不同方法进行分类
类别数
1
2
3
4
例1、下表给出了1982年全国28个省、市、自治区农民家庭收支情况(这里节选6个地区,全部数据见附1.), 有六个指标,利用调查资料进行聚类分析,为经济发展决策提供依据。
地区
食品
衣着
燃料
住房
生活用品
文化生活
北京
196
44
上海
221
39
13
广东
183
21
18
42
37
12
四川
138
21
11
18
16
贵州
122
22
13
14
12
云南
124
20
14
16
3
思考1:指标单位若不同,应如何处理?
思考2:如何衡量样本的相似性?
思考1:指标单位若不同,应如何处理?
思考2:如何衡量样本的相似性?
若指标单位不同,应消除量纲的影响
例如可采用办法:标准分数(z score)
直观:
距离
夹角
夹角余弦
为简化,取两个指标,做平面图
θ
思考2:如何衡量样本的相似性?
直观:
相关系数
夹角余弦
所有指标一起考虑,如何处理?
分类思想:
距离(或相似度)相近的划分为同一类。