1 / 37
文档名称:

第十章聚类分析.ppt

格式:ppt   大小:2,083KB   页数:37页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第十章聚类分析.ppt

上传人:放射辐射 2022/8/1 文件大小:2.03 MB

下载得到文件列表

第十章聚类分析.ppt

相关文档

文档介绍

文档介绍:第十章聚类分析
_I Can Dream About 
(1)二元变量
变量的取值只有两个状态,如性别,表示是否吸烟,医疗检查正常还是不正常等。
i和j是两个变量: q是两个变量中都为1的个数
量或枚举变量:如果xif=xjf, ,否则为1。
如果f是区间标度变量:
如果f是虚数型或者比例标度型变量:计算秩rif,在变换zif
类间距离
距离函数都是关于两个样本的距离刻画,然而在聚类应用中,最基本的方法是计算类间的距离。
设有两个类Ca和Cb,它们分别有m和h个元素,它们的中心分别为γa和γb。设元素x∈ Ca,y∈ Cb ,这两个元素间的距离通常通过类间距离来刻画,记为D(Ca, Cb)。
类间距离的度量主要有:
最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。
最长距离法:定义两个类中最远的两个元素间的距离为类间距离。
中心法:定义两类的两个中心间的距离为类间距离。
类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离:
离差平方和。
中心法
中心法涉及到类的中心的概念。假如Ci是一个聚类,x是Ci内的一个数据点,那么类中心定义如下:
其中ni是第i个聚类中的点数。因此,两个类Ca和Cb的类间距离为:
其中γa和γb是类Ca和Cb的中心点,d是某种形式的距离公式。
离差平方和
离差平方和用到了类直径的概念:
类的直径反映了类中各元素间的差异,可定义为类中各元素至类中心的欧氏距离之和,其量纲为距离的平方:
根据上式得到两类Ca和Cb的直径分别为γa和γb ,类Ca +b= Ca  Cb的直径为γa +b ,则可定义类间距离的平方为:
三、划分方法
划分方法: 给定一个有n个对象的数据集,划分聚类技术将构造数据k个划分,每一个划分就代表一个簇,k n。也就是说,它将数据划分为k个簇,而且这k个划分满足下列条件:
每一个簇至少包含一个对象。
每一个对象属于且仅属于一个簇。
对于给定的k,算法首先给出一个初始的划分方法,以后通过反复迭代的方法改变划分,使得每一次改进之后的划分方案都较前一次更好。
给定一个k,要构造出k个簇,并满足采用的划分准则:
k-平均 :由簇的中心来代表簇;
k-中心点: 每个簇由簇中的某个数据对象来代表。
聚类设计的评价函数
一种直接方法就是观察聚类的类内差异(Within cluster variation)和类间差异(Between cluster variation)。
类内差异:衡量聚类的紧凑性,类内差异可以用特定的距离函数来定义,例如,
类间差异:衡量不同聚类之间的距离,类间差异定义为聚类中心间的距离,例如,
聚类的总体质量可被定义为w(c)和b(c)的一个单调组合,比如w(c) / b(c) 。
k-means算法
k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。相似度的计算根据一个簇中对象的平均值来进行。
输入:簇的数目k和包含n个对象的数据库。
输出:k个簇,使平方误差准则最小。
(1)assign initial value for means; /*任意选择k个对象作为初始的簇中心;*/
(2) REPEAT
(3) FOR j=1 to n DO assign each xj to the closest clusters;
(4) FOR i=1 to k DO / *更新簇平均值*/

(5) Compute /*计算准则函数E*/
(6) UNTIL E不再明显地发生变化。
k-means算法
算法首先随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。
准则函数试图使生成的结果簇尽可能地紧凑和独立。
k-means例子
样本数据
序号 属性 1 属性 2
1 1 1
2 2 1
3 1 2
4 2 2
5 4 3
6 5 3
7 4 4