文档介绍:聚类分析演示文稿
第一页,共六十四页。
(优选)聚类分析详解.
第二页,共六十四页。
主要内容
引言
聚类分析原理
聚类分析的种类
聚类分析应注意的问题
聚类分析应用
聚类分析工具及案例分析
第三页,共六十四页。
相似系数
第十九页,共六十四页。
主要内容
引言
聚类分析原理
聚类分析的种类
聚类分析应注意的问题
聚类分析应用
聚类分析工具及案例分析
第二十页,共六十四页。
聚类分析的种类
(1)系统聚类法(也叫分层聚类或层次聚类)
(2)动态聚类法(也叫快速聚类)
(3)模糊聚类法
(4)图论聚类法
第二十一页,共六十四页。
系统聚类法
对比
第二十二页,共六十四页。
常用的系统聚类方法
一、最短距离法
二、最长距离法
三、中间距离法
四、类平均法
五、重心法
六、离差平方和法(Ward方法)
第二十三页,共六十四页。
一、最短距离法
定义类与类之间的距离为两类最近样品间的距离,即
详细步奏和实例
第二十四页,共六十四页。
最短距离法的聚类步骤
(1) 规定样品之间的距离,计算 个样品的距离矩阵 ,它是一个对称矩阵。
(2) 选择 中的最小元素,设为 ,则将 和 合并成一个新类,记为 ,即
(3) 计算新类 与任一类 之间距离的递推公式为
第二十五页,共六十四页。
最短距离法的聚类步骤
在 中, 和 所在的行和列合并成一个新行新列,对应 ,该行列上的新距离值由()式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作 。
(4) 对 重复上述对 的两步得 ,如此下去直至所有元素合并成一类为止。
如果某一步 中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。
第二十六页,共六十四页。
第二十七页,共六十四页。
第二十八页,共六十四页。
*
第二十九页,共六十四页。
二、最长距离法
类与类之间的距离定义为两类最远样品间的距离,即
详细步奏和实例
第三十页,共六十四页。
最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。
递推公式:
最长距离法容易被异常值严重地扭曲,一个有效的方法是将这些异常值单独拿出来后再进行聚类。
最长距离法的聚类步奏
第三十一页,共六十四页。
第三十二页,共六十四页。
三、中间距离法
类与类之间的距离既不取两类最近样品间的距离,也不取两类最远样品间的距离,而是取介于两者中间的距离。
第三十三页,共六十四页。
第三十四页,共六十四页。
第三十五页,共六十四页。
第三十六页,共六十四页。
第三十七页,共六十四页。
第三十八页,共六十四页。
第三十九页,共六十四页。
第四十页,共六十四页。
第四十一页,共六十四页。
第四十二页,共六十四页。
第四十三页,共六十四页。
以上我们对例采用了多种系统聚类法进行聚类,其结果都是相同的,原因是该例只有很少几个样品,此时聚类的过程不易有什么变化。一般来说,只要聚类的样品数目不是太少,各种聚类方法所产生的聚类结果一般是不同的,甚至会有大的差异。从下面例子中可以看到这一点。
第四十四页,共六十四页。
动态聚类法(快速聚类)
动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。
动态聚类法有许多种方法,一种比较流行的动态聚类法——k均值法。
对比
第四十五页,共六十四页。
k均值法的基本步骤
(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。
(2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。
(3)重复步骤(2),直至所有的样品都不能再分配为止。
最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。
第四十六页,共六十四页。
k均值法的基本步骤
选择凝聚点
初始分类
分类是否合理
修改分类
最终分类
否
是
第四十七页,共六十四页。
第四十八