文档介绍：聚类分析(一)聚类分析基本概念(1)有若干个变量(或指标),例3-1的2个变量是样本均值和样本标准差;例3-2的变量是对式样、图案、颜色、材料的态度;例3-3的变量是销售增长、销售利润和新客户销售额;例3-4的变量是出生率、死亡率和婴儿死亡率;…。这些变量称为自变量或聚类变量。(2)有若干次观测,每次观测值由若干个数值组成,每次观测值称为1个个体或1个样品:例3-1其观测次数共有4次(甲、乙、丙、丁),其观测值都是2个值组成:第1次观测(第1个样品)是向量(),第2次观测(第2个样品)是(),……。例3-2有5次观测(5位顾客),每人4项指标;例3-3、3-4、3-5,的变量各有50、97、39次观测值;而例3-6将许多次原始观测整理为协方差阵,并未提供原始观测数据。(3)要求分类(或分组):例3-3、3-4要求把观测值分为3类,而例3-1和例3-2则不限定观测值分为几类;例3-1、3-2、3-3、3-4要求按观测值分类,而例3-5,3-6要求按变量分类。因为是把大量的样品变为少量的类,通常这种分类称为聚类。(二)聚类原理1)聚类原则选定观测值(点)间距离,类间距离,按照距离最近两类合并在一起的原则合并。(也有用相似远离)。常用聚类方法分为:(1)系统聚类MINITAB译为观测值聚类(得到谱系图或树状图)(2)动态聚类MINITAB译为K均值聚类。可由统计>多变量>观测值聚类,统计>多变量>K均值聚类分别进入。2)常用点间距离(距离度量)有时先把数据标准化再聚类以免单位影响,例如x1观测值3,2,1,0,-1;x2取值30,20,10,0,-10。X1均值1,;将x1观测值减去平均值1,,,,,-,-;,,,-,-,2,1,0,-1的标准化。,,,-,-。标准化后的数与单位无关。系统聚类从“统计>多变量>观测值聚类”进入观测值聚类框;点间距离,类间距离根据情况选取。动态聚类从“统计>多变量>K均值聚类”进入K均值聚类框;点间距离固定为Euclidean,类间距离固定为质心法,无需再选取。(1)欧氏距离欧氏(Euclidean)距离定义为:,(3-2)欧氏距离是聚类分析中使用最广泛的距离,上式也称为简单欧氏距离。另一种常用的形式是平方欧氏距离,即取上式的平方,记为。平方欧氏距离的优点是,因为不再计算平方根,不仅理论上简单,而且提高了计算机的运算速度。(2)Pearson距离欧氏距离虽然使用最为广泛,但是该距离是有量纲的,而且它与各变量的量纲有关,因而从数值上说,各维之间可能因单位而相差悬殊;也没有考虑各变量方差的不同。从欧氏距离的定义中易见,方差大的变量在距离中的作用(贡献)就会大。为此我们引入了Pearson距离的概念。,(3-3)其中是第个变量的方差。这个距离考虑到了各个变量的不同标准差,但未考虑各变量间可能存在的相关。对上式取平方,就得到Pearson平方距离。(3)绝对值距离(又称为Manhattandistance)绝对值距离定义为:,(3-4)绝对值距离是一个应用很广泛的距离,它具有稳健性:野点的影响较小。平方绝对值距离是对上式取平方。(4)马氏距离(Mahalanobisdistance)欧氏距离、Pearson距离和绝对值距离都没有考虑变量间的相关性:当变量之间不相关时效果较好,如果变量之间相关,则聚类结果往往不够好,为此考虑马氏距离。设样本方差阵为,设是2个样品所成向量。则的马氏距离是(3-5)有时为了避免开平方,称为平方马氏距离。严格地说,由于样品属于多个类,计算样本总协方差阵应当按第2章式(2-3)即各样本协方差阵的加权平均计算,但由于聚类过程结束前,真正分类无法知道,通常按(3-5)计算,即按全体样本合为1类计算样本协方差阵。马氏距离的优点是能消除变量间的相关性带来的不利影响。(5)配合距离以上几种距离的定义均要求变量是连续型的,如果使用的变量是有序尺度或名义尺度变量,则也要有相应的一些定义距离的方法。下例说明如何对一类向量定义距离:这类向量的分量为名义尺度变量。设有两个向量:,它们的5个分量均为名义尺度变量:第1个分量分别取值和,称第1个变量值不配合;第2个分量分别取值和,称第2个变量值不配合;第3个分量取相同值,第4个分量取相同值,第5个分量取相同值,称第3,4,5个分量值配合。定义两个向量之间的配合距离为2/(2+3)。一般的,设为两个向量样品配合的分量数,为不配合的分量数,则可定义两个样品