文档介绍:数据挖掘:概念与技术第七章2018年8月23日星期四DataMining:ConceptsandTechniques第七章聚类分析什么是聚类分析?·数据类型及其相似性与非相似性计算算法复杂性及近似算法概念划分方法k-center、k-cluster、k-means、谱聚类NCut层次方法单链接与全链接2018年8月23日星期四DataMining:ConceptsandTechniques什么是聚类分析?“物以类聚,人以群分。”《战国策·齐策三》《周易·系辞上》聚类:一个数据对象的集合同一个聚类中的对象之间具有高度的相似性不同聚类中的对象之间具有低的相似性。聚类分析把一组数据划分成聚类。聚类是无监督分类:没有预先定义的类。应用领域·图像分割文档分类;·消费市场分析;DNA与生物信息学;·离群点(孤立点)分析;2018年8月23日星期四DataMining:ConceptsandTechniques怎样度量聚类方法?一个好的聚类方法将会产生高质量的聚类:优化目标?高的聚类内相似性低的聚类间相似性聚类方法的质量依赖于它所使用的相似性的具体定义及具体实施2018年8月23日星期四DataMining:ConceptsandTechniques对数据挖掘中的聚类方法的要求可扩展性能够处理不同数据类型·发现任意形状的聚类参数越少越好·能够处理噪声和孤立点·能够处理高维数据·能够集成用户提出的各种约束2018年8月23日星期四DataMining:ConceptsandTechniques第七章聚类分析·什么是聚类分析?数据类型及其相似性与非相似性计算算法复杂性及近似算法概念划分方法k-center、k-cluster、k-means、谱聚类NCut层次方法单链接与全链接2018年8月23日星期四DataMining:ConceptsandTechniques数据结构数据矩阵P(2模)np区分矩阵d(2,1)0d(3,Dd(3,2)0(1模)d(,1)d(22)2018年8月23日星期四DataMining:ConceptsandTechniques数据类型及其相似性与非相似性计算相似性与非相似性·区间值变量:·二元变量:标称性,序数性,和比例标度型变量混合类型的变量:2018年8月23日星期四DataMining:ConceptsandTechniques区间值变量标准化数据标准化计算平均绝对偏差=x-m+1一m+,+xm少其中m=n/x,+xy++xn计算标准化的度量差(Z-SCore)=s计算相似性或非相似性时,使用x。考虑:一是没有量纲;二是使用这个平均绝对偏差s比使用标准差σ对于孤立点具有更好的鲁棒性。2018年8月23日星期四DataMining:Conceptsand