1 / 63
文档名称:

聚类分析.ppt

格式:ppt   大小:4,820KB   页数:63页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

聚类分析.ppt

上传人:qingqihe 2022/6/13 文件大小:4.71 MB

下载得到文件列表

聚类分析.ppt

相关文档

文档介绍

文档介绍:商务数据挖掘与应用案例分析
第一页,共六十三页。
第3章 聚类分析
概述>>
相似性度量>>
k-means算法及其改进>>
一趟聚类算法>>
层次聚类算法>>
神属性值只提供足够的信息以区分对象。这种属性值没有实际意义
颜色、性别、产品编号
众数、熵、
列联相关。
序数
其属性值提供足够的信息以区分对象的序。
成绩等级(优、良、中、及格、不及格)、年级(一年级、二年级、三年级、四年级)
中值、百分位、秩相关、符号检验。
数值的
(定量的)
区间
其属性值之间的差是有意义的。
日历日期、摄氏温度
均值、标准差、皮尔逊相关
比率
其属性值之间的差和比率都是有意义的。
长度、时间和速度
几何平均、调和平均、百分比变差
第十页,共六十三页。
*
属性
包含电信客户信息的样本数据集
客户编号
客户类别
行业大类
通话级别
通话总费用

N22011002518
大客户
采矿业和一般制造业
市话
16352

C**********
商业客户
批发和零售业
市话+国内长途(含国内IP)
27891

N22004895555
商业客户
批发和零售业
市话+国际长途(含国际IP)
63124

3221026196
大客户
科学教育和文化卫生
市话+国际长途(含国际IP)
53057

D**********
大客户
房地产和建筑业
市话+国际长途(含国际IP)
80827







对象
数据及数据类型 (3)
例子:包含电信客户信息的样本数据集
第十一页,共六十三页。
*
数据及数据类型 (4)
数据集可以看作具有相同属性的数据对象的集合。在数据挖掘领域,关于数据集有三个方面的问题需要考虑:维度、稀疏性和分辨率。
(1) 维度(Dimensionality)
指数据集中的对象具有的属性个数总和。
维归约
(2) 稀疏性(Sparsity)
指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0;非零项不到1%。
文本数据集
(3) 分辨率(Resolution)
不同分辨率下数据的性质不同
第十二页,共六十三页。
*
属性之间的相似性度量
简单属性间的相似度和相异度
两个属性相似程度的数值度量,两个属性越相似,它们的相似度就越高。相异度与相似度相反。
不同类型的属性使用的相似性度量是不同的。
第十三页,共六十三页。
*
对象之间的相似性度量 (1)
对象之间的相似性度量,即多个属性整体的相似性度量方法。对象之间的相似度计算涉及描述对象的属性类型,需要将不同属性上的相似度整合成一个总的相似度来表示。
相似性度量方法包括:距离度量和相似系数。
假定使用m个属性来描述数据记录,将每条记录看成m维空间中的一个点,距离越小、相似系数越大的记录之间的相似程度越大。这里分三种情况来描述:
(1)所有属性是数值型的;
(2)所有属性都是二值属性的;
(3)同时包含有分类属性和数值属性的混合属性。
第十四页,共六十三页。
(1) 数值属性相似性度量
1)距离度量
(a) 闵可夫斯基(Minkowski )距离
x=1,城市块(曼哈顿)距离
x=2,欧几里得距离
x=∞,切比雪夫(Chebyshev)距离
对象之间的相似性度量 (2)
第十五页,共六十三页。
*
Minkowski 距离计算例子
Distance Matrix
对象之间的相似性度量 (3)
第十六页,共六十三页。
*
对象之间的相似性度量 (4)
Canberra距离是由Lance和Williams最早提出的,定义如下:
Canberra距离或Lance距离可以看成一种相对曼哈顿距离,它克服了Minkowski距离受量纲影响的缺点
Canberra距离对缺省值是稳健的,当两个坐标都接近0时,Canberra距离对微小的变化很敏感。
第十七页,共六十三页。
2) 相似系数
(a) 余弦相似度
余弦相似度忽略各向量的绝对长度,着重从形状方面考虑它们之间的关系。取值范围在区间[-1,1]内。当两个向量方向相近时,夹角余弦值较大,反之则较小。特别地,当两个向量平行时,夹角余弦值为1,而正交时余弦值为0。
(b) 相关系数
相关系数是向量标准化后的夹角余弦,取值范围在区间[-1,1]内。它表示两个向量的线性相关程度。
对象之间的相似性度量 (5)
第十八页,共六十三页。
(c)广义Jaccard系数
广义J