文档介绍:第十六讲聚类分析与判别分析
第一部分上一讲回顾
第二部分聚类分析概念
第三部分聚类分析的SPSS过程
第四部分判别分析
1、回归分析及模型
2、线性回归
3、线性回归SPSS过程
4、曲线估计
第一部分上一讲回顾
第二部分聚类分析概念
俗语说,物以类聚、人以群分。
但什么是分类的根据呢?
比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。
结构
一、分类
二、什么是聚类分析
三、如何度量远近
四、两个距离概念
分类
聚类分析有
1、系统聚类法
2、有序样品聚类法
3、动态聚类法
4、模糊聚类法
5、图论聚类法
6、聚类预报法等
(注:一般用的是系统聚类法。)
什么是聚类分析
1、聚类分析起源于分类学。在考古的分类学中,人们主要依靠经验和专业知识事项分类,形成数值分类学。
例子:对我国30个省市自治区独立核算工业企业经济效益的分析;对某些大城市物价指数考核等。
(注:值得提出的是将聚类分析和其他方法联系起来使用,如判别分析、主成分分析、回归分析等效果更好。)
什么是聚类分析
2、聚类分析是根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。
根据分类对象的不同,
①、分为样品(观测量)聚类
②、变量聚类两种
样品聚类:
对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)。
变量聚类:
找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。
什么是聚类分析
比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。
本部分主要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。
如何度量远近?
如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。
如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。
三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。