1 / 37
文档名称:

ch6聚类分析.ppt

格式:ppt   大小:1,569KB   页数:37页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ch6聚类分析.ppt

上传人:gyzhluyin 2017/2/22 文件大小:1.53 MB

下载得到文件列表

ch6聚类分析.ppt

相关文档

文档介绍

文档介绍:第六章聚类分析?分类俗语说,物以类聚、人以群分。但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种分类法: 可以按照自然条件来分:比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类。?聚类的目的根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数) 。根据某种准则( 最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。?聚类的种类?根据分类的原理可将聚类分析分为: 系统聚类与快速聚类系统聚类与快速聚类?根据分类的对象可将聚类分析分为: 系统 Q型与 R型(即样品聚类 clustering for individuals 与指标聚类 clustering for variables) 聚类分析( cluster analysis ) 对于一组数据,人们既可以对变量(指标) 进行分类(相当于对数据中的列分类),降维。也可以对观测值(事件, 样品) 来分类(相当于对数据中的行分类)。对变量的聚类称为 R型聚类,而对观测值聚类称为 Q型聚类。这两种聚类在数学上是对称的,没有什么不同。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 SPSS 中, 分层聚类( hierarchical cluster )和快速聚类( k-means cluster ) ?聚类分析数据格式例:某煤田中选取 9个见煤钻孔,对所有煤层进行工业分析、光谱分析取得一批实验观测数据如下表, 运用这些指标对 9个煤层进行聚类分析;并运用这些数据对指标变量进行聚类分析。 9 8 7 6 5 4 3 2 1 X8 X7 X6 X5 X4 X3 X2 X1 SO 3 MgO CaO Al 2O 3 Fe 2O 3 SiO 2SA变量样本号?系统聚类的基本步骤(1)构造 n个类,每个类包含且只包含一个样品。(2)计算 n个样品两两间的距离,构成距离矩阵,记作 D 0。(3)合并距离最近的两类为一新类。(4)计算新类与当前各类的距离。若类的个数等于 1,转到步骤(5) ,否则回到步骤(3) 。(5)画聚类图。(6)决定类的个数,及各类包含的样品数,并对类作出解释。?距离与相似系数研究样品间的关系常用距离,研究指标间的关系常用相似系数。相似系数常用的有:夹角余弦与相关系数( Pearson 相关系数) 按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离, 一个是类和类之间的距离。点间距离有很多定义方式。最简单的是欧氏( Euclidian )距离,还有欧式距离的平方、绝对值距离、明氏( Minkowski )距离、马氏( Mahalanobis )距离、 Lance 和 Williams 距离、斜交空间距离、配合距离。由一个点组成的类是最基本的类。如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。(一)距离假使每个样品有 p个变量,则每个样品都可以看成 p维空间中的一个点, n个样品就是 p维空间中的 n个点,则第 i样品与第 j样品之间的距离记为 d ij 1. 欧式( Euclidian )距离