1 / 83
文档名称:

第二章聚类分析.ppt

格式:ppt   大小:3,031KB   页数:83页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第二章聚类分析.ppt

上传人:1136365664 2022/8/10 文件大小:2.96 MB

下载得到文件列表

第二章聚类分析.ppt

相关文档

文档介绍

文档介绍:第二章 聚类分析
(Clustering Analysis)
聚类分析的概念
模式相似性测度
类的定义与类间距离
聚类的 用聚类分析来验证指定假说的有效性。
例如:考虑这样的假说“大公司在海外投资”。
要验证这个假说是否正确,就要对大公司和有代表性的公司按规模、海外活跃度、成功完成项目的能力等进行聚类分析。从而来支持这个假说。
第二章 聚类分析
四、基于分组的预测
对现有数据进行聚类分析,形成模式的特征,并用特征表示聚类,接下来,对于一个未知模式,就可以用前面的聚类来确定是哪一类?
聚类应用的四个基本方向
例如:考虑被同种疾病感染的病人数据集。
先按聚类分析进行分类,然后对新的病人确定他适合的聚类,从而判断他病情。
第二章 聚类分析
模式相似性测度
用于描述各模式之间特征的相似程度
●距 离 测 度
●相 似 测 度
●匹 配 测 度
第二章 聚类分析
模式相似性测度
一、距离测度(差值测度)
测度基础:两个矢量矢端的距离
测度数值:两矢量各相应分量之差的函数。
时,等号成立;

,当且仅当


第二章 聚类分析
模式相似性测度
常用的距离测度有:
(Euclidean)距离
第二章 聚类分析
模式相似性测度
(Minkowski)距离
(2-2-4)
(街坊距离或Manhattan距离) (2-2-2)
(Chebyshev)距离
(2-2-3)
第二章 聚类分析
模式相似性测度
第二章 聚类分析
随机矢量 的自协方差矩阵表征各分量围绕其均值的散布情况及各分量间的相关关系,其定义为:
模式相似性测度
(Mahalanobis)距离
注意!马氏距离对一切非奇异线性变换都是不变的,这说明它不受特征量纲选择的影响,并且是平移不变的。
上面的V的含义是这个矢量集的协方差阵的统计量,故马氏距离加入了对特征的相关性的考虑。
第二章 聚类分析
行列式>0
模式相似性测度
第二章 聚类分析
Cholesky分解
模式相似性测度
二、相似测度
测度基础:以两矢量的方向是否相近作为考虑的基础,矢量长度并不不重要。设
(夹角余弦)
(2-2-11)
注意:坐标系的旋转和尺度的缩放是不变的,但对一般的线形变换和坐标系的平移不具有不变性。
模式相似性测度
二、相似测度

它实际上是数据中心化后的矢量夹角余弦。
(2-2-12)
模式相似性测度
二、相似测度

(2-2-13)
式中 为相应分量的协方差, 为矢量维数。它不受量纲变化的影响。
2·3 类的定义与类间距离
类的定义
定义之1 设集合S中任意元素xi与yj间的距离dij有
dij h
其中h为给定的阀值,称S对于阀值h组成一类。
类的定义有很多种,类的划分具有人为规定性,这反
映在定义的选取及参数的选择上。一个分类结果的优劣最后只能根据实际来评价。
书中的其它定义方法请大家自行参考学****br/>讨论(续)
距离阈值T对聚类结果的影响
2·3 类的定义与类间距离
类间距离测度方法
⑴ 最近距离法
⑵ 最远距离法
⑶ 中间距离法
⑷ 重心距离法
⑸ 平均距离法
⑹ 离差平方和法
2·3 类的定义与类间距离
类间距离测度方法
⑴ 最近距离法
⑵ 最远距离法
⑶ 中间距离法
⑷ 重心距离法
⑸ 平均距离法
⑹ 离差平方和法
式中