文档名称：

第十章聚类分析.ppt

格式：ppt 大小：2,083KB 页数：37页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

第十章聚类分析.ppt

上传人:放射辐射 2022/8/1 文件大小：2.03 MB

下载得到文件列表

第十章聚类分析.ppt

相关文档

文档介绍

文档介绍：第十章聚类分析
_I Can Dream About 
（1）二元变量
变量的取值只有两个状态，如性别，表示是否吸烟，医疗检查正常还是不正常等。
i和j是两个变量： q是两个变量中都为1的个数
量或枚举变量：如果xif=xjf, ,否则为1。
如果f是区间标度变量：
如果f是虚数型或者比例标度型变量：计算秩rif，在变换zif
类间距离
距离函数都是关于两个样本的距离刻画，然而在聚类应用中，最基本的方法是计算类间的距离。
设有两个类Ca和Cb，它们分别有m和h个元素，它们的中心分别为γa和γb。设元素x∈ Ca，y∈ Cb ，这两个元素间的距离通常通过类间距离来刻画，记为D(Ca, Cb)。
类间距离的度量主要有：
最短距离法：定义两个类中最靠近的两个元素间的距离为类间距离。
最长距离法：定义两个类中最远的两个元素间的距离为类间距离。
中心法：定义两类的两个中心间的距离为类间距离。
类平均法：它计算两个类中任意两个元素间的距离，并且综合他们为类间距离：
离差平方和。
中心法
中心法涉及到类的中心的概念。假如Ci是一个聚类，x是Ci内的一个数据点，那么类中心定义如下：
其中ni是第i个聚类中的点数。因此，两个类Ca和Cb的类间距离为：
其中γa和γb是类Ca和Cb的中心点，d是某种形式的距离公式。
离差平方和
离差平方和用到了类直径的概念：
类的直径反映了类中各元素间的差异，可定义为类中各元素至类中心的欧氏距离之和，其量纲为距离的平方：
根据上式得到两类Ca和Cb的直径分别为γa和γb ，类Ca +b= Ca  Cb的直径为γa +b ，则可定义类间距离的平方为：
三、划分方法
划分方法: 给定一个有n个对象的数据集，划分聚类技术将构造数据k个划分，每一个划分就代表一个簇，k n。也就是说，它将数据划分为k个簇，而且这k个划分满足下列条件：
每一个簇至少包含一个对象。
每一个对象属于且仅属于一个簇。
对于给定的k，算法首先给出一个初始的划分方法，以后通过反复迭代的方法改变划分，使得每一次改进之后的划分方案都较前一次更好。
给定一个k，要构造出k个簇，并满足采用的划分准则：
k-平均 :由簇的中心来代表簇；
k-中心点: 每个簇由簇中的某个数据对象来代表。
聚类设计的评价函数
一种直接方法就是观察聚类的类内差异（Within cluster variation）和类间差异(Between cluster variation）。
类内差异：衡量聚类的紧凑性，类内差异可以用特定的距离函数来定义，例如，
类间差异：衡量不同聚类之间的距离，类间差异定义为聚类中心间的距离，例如，
聚类的总体质量可被定义为w(c)和b(c)的一个单调组合，比如w(c) / b(c) 。
k-means算法
k-means算法，也被称为k-平均或k-均值，是一种得到最广泛使用的聚类算法。相似度的计算根据一个簇中对象的平均值来进行。
输入：簇的数目k和包含n个对象的数据库。
输出：k个簇，使平方误差准则最小。
（1)assign initial value for means; /*任意选择k个对象作为初始的簇中心；*/
(2) REPEAT
(3) FOR j=1 to n DO assign each xj to the closest clusters;
(4) FOR i=1 to k DO / *更新簇平均值*/

(5) Compute /*计算准则函数E*/
(6) UNTIL E不再明显地发生变化。
k-means算法
算法首先随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离，将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。
准则函数试图使生成的结果簇尽可能地紧凑和独立。
k-means例子
样本数据
序号属性 1 属性 2
1 1 1
2 2 1
3 1 2
4 2 2
5 4 3
6 5 3
7 4 4