1 / 101
文档名称:

理学聚类分析.pptx

格式:pptx   大小:995KB   页数:101页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

理学聚类分析.pptx

上传人:wz_198613 2019/2/21 文件大小:995 KB

下载得到文件列表

理学聚类分析.pptx

相关文档

文档介绍

文档介绍:,聚类(Clustering)是将数据集划分为若干相似对象组成的多个组(group)或簇(cluster)的过程,使得同一组中对象间的相似度最大化,不同组中对象间的相似度最小化。或者说一个簇(cluster)就是由彼此相似的一组对象所构成的集合,不同簇中的对象通常不相似或相似度很低。类间相似度最小化(距离最大化)类内相似度最大化(距离最小化)从机器学****的角度看,聚类是一种无监督的机器学****方法,即事先对数据集的分布没有任何的了解,它是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程。聚类方法的目的是寻找数据中:潜在的自然分组结构和感兴趣的关系。 聚类分析中“簇”的特征:聚类所说的簇不是事先给定的,而是根据数据的相似性和距离来划分聚的数目和结构都没有事先假定注意:聚类也可以是不明确的有多少聚类?四个类2个类六个类聚类分析正在蓬勃发展,广泛应用于一些探索性领域,如统计学与模式分析,金融分析,市场营销,决策支持,信息检索,WEB挖掘,网络安全,图象处理,地质勘探、城市规划,土地使用、空间数据分析,生物学,天文学,心理学,考古学等。(1)模式表示(包括特征提取和/或选择);(2)适合于数据领域的模式相似性定义;(3)聚类或划分算法;(4)数据摘要;(5)输出结果的评估。,数据挖掘对聚类的典型要求如下:(1)可伸缩性(Scalability)(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)用于决定输入参数的领域知识最小化(5)对于输入记录顺序不敏感(6)高维性(7)处理噪音和异常数据的能力(8)基于约束的聚类(9)(partitioningmethods)基于质心(K-means)、中心的划分方法层次的方法(hierarchicalmethods)BIRCH、ROCK、CURE基于密度的方法DBSCAN、OPTICS基于图的方法Chameleon、SNN基于网格的方法(grid-basedmethods)STING、WaveCluster、CLIQUE基于模型的方法(model-basedmethods)EM、COBWEB、神经网络其他聚类方法谱聚类算法(spectralclustering)、,一个划分方法构建数据的k个划分,每个划分表示一个聚类,并且k<=n。也就是说,它将数据划分为k个组,同时满足如下的要求:(1)每个组至少包含一个对象;(2)每个对象必须属于且只属于一个组。划分式聚类算法需要预先指定簇数目或簇中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数值收敛时,得到最终聚类结果。这类方法分为基于质心的(Centroid-based)划分方法和基于中心的(Medoid-based)划分方法。