1 / 124
文档名称:

变量聚类.ppt

格式:ppt   大小:2,089KB   页数:124页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

变量聚类.ppt

上传人:dlmus1 2017/11/24 文件大小:2.04 MB

下载得到文件列表

变量聚类.ppt

相关文档

文档介绍

文档介绍:SPSS 16实用教程
第8章聚类分析与判别分析
艾对元: **********
******@gsau.
QQ: 156797555
/eddy7777/
聚类分析与判别分析的基本概念

层次聚类分析中的Q型聚类

层次聚类分析中的R型聚类

快速聚类分析

判别分析

本章介绍统计学中经常使用的分类统计分析方法——聚类分析与判别分析。主要内容有层次聚类分析、快速聚类分析和判别分析。其中层次聚类分析根据聚类的对象不同分成Q型聚类和R型聚类。
聚类分析与判别分析的基本概念
统计学研究这类问题的常用分类统计方法主要有聚类分析(cluster analysis)与判别分析(discriminant analysis)。其中聚类分析是统计学中研究这种“物以类聚”问题的一种有效方法,它属于统计分析的范畴。聚类分析的实质是建立一种分类方法,它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。因此我们说聚类分析是一种探索性的分析方法。
分类
俗语说,物以类聚、人以群分。
但什么是分类的根据呢?
比如,要想把中国的县分成若干类,就有很多种分类法;
可以按照自然条件来分,
比如考虑降水、土地、日照、湿度等各方面;
也可以考虑收入、教育水准、医疗条件、基础设施等指标;
既可以用某一项来分类,也可以同时考虑多项指标来分类。
聚类分析
对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。
比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,
当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。
本章要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。
饮料数据( )
16种饮料的热量、咖啡因、钠及价格四种变量
聚类分析类型
根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。
根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种:
样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)
变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。
判别分析
判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。
在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。
不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(训练样本)。
判别分析是一种有效的对个案进行分类分析的方法。和聚类分析不同的是,判别分析时,组别的特征已知。如银行为了对贷款进行管理,需要预测哪些类型的客户可能不会按时归还贷款。已知过去几年中,900个客户的贷款归还信誉度,据此可以将客户分成两组:可靠客户和不可靠客户。
再通过收集客户的一些资料,如年龄、工资收入、教育程度、存款等,将这些资料作为自变量。通过判别分析,建立判别函数。那么,如果有150个新的客户提交贷款请求,就可以利用创建好的判别函数,对新的客户进行分析,从而判断新的客户是属于可靠客户类,还是不可靠客户