文档介绍:第六章聚类分析
§ 引言
§ 距离和相似系数
§ 系统聚类法
§ 动态聚类法
§ 引言
判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。
聚类分析根据分类对象不同分为Q型和R型聚类分析。
§ 距离和相似系数
相似性度量:距离和相似系数。
距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。
样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。
变量的测量尺度
通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。
间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。
有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。
名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。
本章主要讨论具有间隔尺度变量的样品聚类分析方法。
距离有多种定义方法,在聚类分析中最常用的是欧氏距离,即有
当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令
其中和分别为第个变量的样本均值和样本方差。
二、相似系数
聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。
变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。
相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。
聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。
相似系数一般需满足的条件
(1) ,当且仅当和是常数;
(2) ,对一切;
(3) ,对一切。
最常用的两个相似系数