1 / 109
文档名称:

ch数据挖掘算法聚类.pptx

格式:pptx   大小:1,007KB   页数:109页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

ch数据挖掘算法聚类.pptx

上传人:wz_198613 2019/4/15 文件大小:1007 KB

下载得到文件列表

ch数据挖掘算法聚类.pptx

文档介绍

文档介绍:第七章数据挖掘算法—聚类,一、聚类:按照数据之间的相似性,对数据集进行分组或分类(簇,cluster)的过程,试图使类内差距最小化,类间差距最大化。利用聚类结果,可以提取数据集中隐藏的信息,对未来数据进行预测和分类。应用于数据挖掘、模式识别、图像处理、经济学……﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒.﹒.﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒.﹒.﹒.┇..··..··.·﹒.﹒.·﹒.﹒.﹒.﹒.﹒年龄80类别1类别2类别3﹒.·﹒..﹒.·.收入6000030000150000聚类分析原理“物以类聚,人以群分”聚类分析源于许多研究领域,包括数据挖掘、统计学、机器学****模式识别等。作为一个数据挖掘中的一个功能,聚类分析能作为一个独立的工具来获得数据分布的情况,并且概括出每个簇的特点,或者集中注意力对特定的某些簇做进一步的分析。数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性的能力、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。二、聚类在数据挖掘中的典型应用:聚类分析可以作为其它算法的预处理步骤:利用聚类进行数据预处理,可以获得数据的基本概况,在此基础上进行特征抽取或分类就可以提高精确度和挖掘效率。也可将聚类结果用于进一步关联分析,以获得进一步的有用信息。可以作为一个独立的工具来获得数据的分布情况:聚类分析是获得数据分布情况的有效方法。通过观察聚类得到的每个簇的特点,可以集中对特定的某些簇作进一步分析。这在诸如市场细分、目标顾客定位、业绩估评、生物种群划分等方面具有广阔的应用前景。聚类分析可以完成孤立点挖掘:许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。然而孤立点本身可能是非常有用的。如在欺诈探测中,孤立点可能预示着欺诈行为的存在。广泛的应用领域商务:帮助市场分析人员从客户信息库中发现不同的客户群,用购买模式来刻画不同的客户群的特征土地使用:在地球观测数据库中识别土地使用情况相似的地区保险业:汽车保险单持有者的分组城市规划:根据房子的类型,价值和地理分布对房子分组生物学:推导植物和动物的分类,对基因进行分类广泛的应用领域WEB文档分类其他:如地球观测数据库中相似地区的确定;各类保险投保人的分组;一个城市中不同类型、价值、地理位置房子的分组等。聚类分析的目标就是形成的数据簇,并且满足下面两个条件:一个簇内的数据尽量相似(highintra-classsimilarity);不同簇的数据尽量不相似(lowinter-classsimilarity)。衡量一个聚类分析算法质量,依靠:相似度测量机制是否合适。是否能发现数据背后潜在的、手工难以发现的类知识。三、聚类分析的目标:聚类算法的要求ScalabilityAbilitytodealwithdifferenttypesofattributesAbilitytohandledynamicdataDiscoveryofclusterswitharbitraryshapeMinimalrequirementsfordomainknowledgetodetermineinputparametersAbletodealwithnoiseandoutliersInsensitivetoorderofinputrecordsHighdimensionalityIncorporationofuser-specifiedconstraints(用户规定的约束,聚类别太大)Interpretabilityandusability(可解释,可使用)Dissimilarity/Similarity度量:Similarityisexpressedintermsofadistancefunction,whichistypicallymetric: d(i,j)对于不同的数据类型,距离函数的定义是非常不同的区间标度变量(Interval-scaledvariables)二元变量(Binaryvariables)标称型、序数型和比例标度型混合型四、相似性计算方法—数据类型四、相似性计算方法—区间标度变量距离通常是用来作为对象之间相似度和不相似度量的最主要的方法区间标度是一个粗略线性标度的连续度量。典型的例子包括重量和高度,经度和纬度坐标(聚类房屋),以及大气温度。