1 / 28
文档名称:

11聚类分析.ppt

格式:ppt   页数:28页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

11聚类分析.ppt

上传人:中国课件站 2011/12/5 文件大小:0 KB

下载得到文件列表

11聚类分析.ppt

文档介绍

文档介绍:统计学
─从数据到结论
第十一章聚类分析
分类
物以类聚、人以群分;
但根据什么分类呢?
如要想把中国的县分类,就有多种方法
可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,
也可考虑收入、教育水准、医疗条件、基础设施等指标;
既可以用某一项来分类,也可以同时考虑多项指标来分类。
聚类分析
对一个数据,既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。
当然,不一定事先假定有多少类,完全可以按照数据本身的规律来分类。
本章要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。它们在数学上是无区别的。
饮料数据( )
16种饮料的热量、咖啡因、钠及价格四种变量
?
如果想要对100个学生进行分类,而仅知道他们的数学成绩,则只好按照数学成绩分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。
如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。
?
三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。
在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。
两个距离概念
按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。
点间距离有很多定义方式。最简单的是歐氏距离。
当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。
两个距离概念
由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,
类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。
两个距离概念
在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。