1 / 39
文档名称:

聚类算法.ppt

格式:ppt   大小:346KB   页数:39页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类算法.ppt

上传人:xxj16588 2016/8/27 文件大小:346 KB

下载得到文件列表

聚类算法.ppt

文档介绍

文档介绍:2017-4-11 1 引例?聚类分析的定义?聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度 2017-4-11 2 引例?聚类分析示例数据集样本序号 x 1x 2x 3x 4x 5x 6x 7 描述属性 描述属性 98 聚类分析的数据集没有类别属性 2017-4-11 3 聚类分析概述?数据挖掘技术对聚类分析的要求: ?可伸缩性?处理不同类型属性的能力?发现任意形状聚类的能力?减小对先验知识和用户自定义参数的依赖性?处理噪声数据的能力?可解释性和实用性 2017-4-11 4 聚类分析概述?通常聚类算法可以分为以下几类: ?划分聚类方法?层次聚类方法?基于密度的聚类方法?基于网格的聚类方法 2017-4-11 5 聚类分析中相似度的计算方法? 连续型属性的相似度计算方法? 二值离散型属性的相似度计算方法? 多值离散型属性的相似度计算方法? 混合类型属性的相似度计算方法 2017-4-11 6 连续型属性的相似度计算方法?欧氏距离( Euclidean distance ) ?曼哈顿距离( Manhattan distance ) ?明考斯基距离( Minkowski distance ) ???? d1k 2 jk ik ji)xx()x,x(d???? d1k jk ik jixx)x,x(d q/1 d1k q jk ik ji)xx()x,x(d???? 2017-4-11 7 =SQRT(SUMXMY2({0,2},{,0})) 2017-4-11 8 二值离散型属性的相似度计算方法?数据样本的二值离散型属性的取值情况数据样本 x j10合计数据样本 x i1a 11a 01a 11 +a 010a 10a 00a 10 +a 00合计 a 11 +a 10a 01 +a 00a 11 +a 10 +a 01 +a 00 2017-4-11 9 二值离散型属性的相似度计算方法?对称的二值离散型属性?不对称的二值离散型属性 10 01 11 10 01 00 ( , ) i j a a d x x a a a a ??? ?? 01 10 11 01 10 jiaaa aa)x,x(d???? 2017-4-11 10 多值离散型属性的相似度计算方法?多值离散型属性的相似度?d为数据集中的属性个数, u为样本 xi和xj取值相同的属性个数 d ud)x,x(d ji??