文档介绍:聚类分析之--谱系聚类法
类间距离及其递推公式
谱系聚类法的应用分析
谱系聚类法的步骤
谱系聚类
引言
谱系聚类法也称为系统聚类法,是目前应用较为广泛的一种聚类方法,它根据植物分类学的思想对研究对象进行分类。
在植物分类学中,分类的单位是:门、纲、目、科、属、种,其中种是分类的基本单位。分类单位越小,它所包含的植物就越少,植物间的共同特征就越多。
谱系聚类
利用这种分类思想,谱系聚类法首先视各样品自成一类,然后把最相似的样品聚为小类,再将已聚合的小类按其相似性再聚合,随着相似性的减弱,最后将一切子类都聚合成一个大类,从而得到一个按相近性大小聚结起来的谱系图,再进一步根据实际情况确定合适的分类个数。
谱系聚类
问题
判断两个样品最相似的依据是什么?
谱系聚类
类间距离及其递推公式
常用的类间距离有四种:
最短距离
最长距离
类平均距离
重心距离
类间距离
谱系聚类
以分别表示样品,以简记与的距离,设分别表示两个类,.
最短距离
即用两类中样品之间距离最短者作为
两类间的距离.
谱系聚类
最长距离
即用两类中样品之间距离最长者作为
这两类间的距离.
类平均距离
即用两类中所有两两样品之间的距离的平均
作为两类之间的距离.
或者
即用两类中所有两两样品之间的平方距离的平均
作为两类间的平方距离.
谱系聚类
重心距离
设类中的样品为, ,…, ,则其均值
称为类的重心.
其中, , 分别是的重心,即用两类的重心之间的距离作为两类间的距离.
谱系聚类
按照谱系聚类的思想,先将样品聚合成小类,,则包含个样品.
为了更方便地实现谱系聚类,我们需要建立类间距离的递推公式,即计算类与其他类
之间的距离.
类间距离的递推公式
谱系聚类