1 / 293
文档名称:

数据挖掘原理算法及应用聚类方法.pptx

格式:pptx   大小:3,837KB   页数:293页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘原理算法及应用聚类方法.pptx

上传人:wz_198613 2021/2/16 文件大小:3.75 MB

下载得到文件列表

数据挖掘原理算法及应用聚类方法.pptx

相关文档

文档介绍

文档介绍:概  述
聚类分析源于许多研究领域,包括数据挖掘、统计学、机器学****模式识别等。它是数据挖掘中的一个功能,但也能作为一个独立的工具来获得数据分布的情况,概括出每个簇的特点,或者集中注意力对特定的某些簇作进一步的分析。此外,聚类分析也可以作为其他分析算法 (如关联规则、分类等)的预处理步骤,这些算法在生成的簇上进行处理。
数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。典型要求可以通过以下几个方面来刻画。
(1) 可伸缩性:指聚类算法不论对于小数据集还是对于大数据集,都应是有效的。在很多聚类算法当中,数据对象小于几百个的小数据集合上鲁棒性很好,而对于包含上万个数据对象的大规模数据库进行聚类时,将会导致不同的偏差结果。研究大容量数据集的高效聚类方法是数据挖掘必须面对的挑战。
  (2) 具有处理不同类型属性的能力: 指既可处理数值型数据,又可处理非数值型数据,既可以处理离散数据,又可以处理连续域内的数据,如布尔型、序数型、枚举型或这些数据类型的混合。
(3) 能够发现任意形状的聚类。许多聚类算法经常使用欧几里得距离来作为相似性度量方法,但基于这样的距离度量的算法趋向于发现具有相近密度和尺寸的球状簇。对于一个可能是任意形状的簇的情况,提出能发现任意形状簇的算法是很重要的。   
  (4) 输入参数对领域知识的弱依赖性。在聚类分析当中,许多聚类算法要求用户输入一定的参数,如希望得到的簇的数目等。聚类结果对于输入的参数很敏感,通常参数较难确定,尤其是对于含有高维对象的数据集更是如此。要求用人工输入参数不但加重了用户的负担,也使得聚类质量难以控制。一个好的聚类算法应该对这个问题给出一个好的解决方法。
(5) 对于输入记录顺序不敏感。一些聚类算法对于输入数据的顺序是敏感的。例如,对于同一个数据集合,以不同的顺序提交给同一个算法时,可能产生差别很大的聚类结果。研究和开发对数据输入顺序不敏感的算法具有重要的意义。
(6) 挖掘算法应具有处理高维数据的能力,既可处理属性较少的数据,又能处理属性较多的数据。很多聚类算法擅长处理低维数据,一般只涉及两维到三维,人类对两、三维数据的聚类结果很容易直观地判断聚类的质量。但是,高维数据聚类结果的判断就不那样直观了。数据对象在高维空间的聚类是非常具有挑战性的,尤其是考虑到这样的数据可能高度偏斜并且非常稀疏。
(7) 处理噪声数据的能力。在现实应用中,绝大多数的数据都包含了孤立点、空缺、未知数据或者错误的数据。如果聚类算法对于这样的数据敏感,将会导致质量较低的聚类结果。
  (8) 基于约束的聚类。在实际应用当中可能需要在各种约束条件下进行聚类。既要找到满足特定的约束,又要具有良好聚类特性的数据分组是一项具有挑战性的任务。
 (9) 挖掘出来的信息是可理解的和可用的。这点很容易理解,但在实际挖掘中往往不能令人满意。
 聚类分析在数据挖掘中的应用
  聚类分析在数据挖掘中的应用主要有以下几个方面:  
  (1) 聚类分析可以作为其他算法的预处理步骤。
  利用聚类进行数据预处理,可以获得数据的基本概况,在此基础上进行特征抽取或分类就可以提高精确度和挖掘效率。也可将聚类结果用于进一步关联分析,以进一步获得有用的信息。

(2) 可以作为一个独立的工具来获得数据的分布情况。
  聚类分析是获得数据分布情况的有效方法。例如,在商业上,聚类分析可以帮助市场分析人员从客户基本资料数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。通过观察聚类得到的每个簇的特点,可以集中对特定的某些簇作进一步分析。这在诸如市场细分、目标顾客定位、业绩估评、生物种群划分等方面具有广阔的应用前景。
  (3) 聚类分析可以完成孤立点挖掘。
  许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。然而孤立点本身可能是非常有用的,如在欺诈探测中,孤立点可能预示着欺诈行为的存在。
 聚类分析算法的概念与基本分类
  1. 聚类概念
   聚类分析的输入可以用一组有序对(X, s)或(X, d)表示,这里X表示一组样本,s和d分别是度量样本间相似度或相异度(距离)的标准。聚类系统的输出是对数据的区分结果,即C={C1,C2,…,Ck),其中Ci(i=1,2,…,k)是X的子集,且满足如下条件:
  (1) C1∪C2∪…∪Ck=X;
  (2) Ci∩Cj=Ф,i≠j。