1 / 52
文档名称:

R语言-聚类分析.pptx

格式:pptx   大小:981KB   页数:52页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

R语言-聚类分析.pptx

上传人:63229029 2016/12/22 文件大小:981 KB

下载得到文件列表

R语言-聚类分析.pptx

相关文档

文档介绍

文档介绍:聚类的基本步骤?什么是类:粗略地讲,相似样品(或指标)的集合成为类。?聚类的两个基本步骤 :检验每一对观测值(对象)取值的相似性。一个相似性(邻近度)的度量定义为对象间的“接近”程度。越接近越同质。 :根据邻近度的度量,被分配到各组的对象间的差别变大,而被分配到同一组的观测值应尽可能接近。关于聚类:聚类应用领域?仓储管理: 对不同类的商品在入库过程中进行聚类储存?营销:发现客户集群并进行直销和重组?天文: 发现相似恒星群以及星系群?地震研究:观测到的地震震源应聚集在大陆断层带?基因分析:发现具有相似表达式的基因群?… 3关于聚类:探索性的分析方法?作为一种探索性技术, Everitt (1993) 评价到: “聚类方法基本上是用于产生一些假设而不是检验假设”。?有多少作聚类分析的人就有多少聚类方法。聚类的分类: ?划分聚类方法?层次聚类方法?密度聚类方法?网格聚类方法?模型聚类方法在基于划分的聚类中,任务就是将数据划分成 K个不相交的点集,使每个子集中的点尽可能同质。基于划分的方法,其代表算法有 k-means 算法、 K-medoids 等划分聚类方法 k-means 算法?k-means 算法基本步骤 k 个对象作为初始聚类中心; (中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (有变化)聚类的均值(中心对象); ,当满足一定条件,如函数收敛时,则算法终止; 如果条件不满足则回到步骤 2。 k-means 优缺点?主要优点: ?是解决聚类问题的一种经典算法,简单、快速。?对处理大数据集,该算法是相对可伸缩和高效率的。?当结果簇是密集的,它的效果较好。?主要缺点?在簇的中心( 平均值)被定义的情况下才能使用。?必须事先给出 k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。?不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的。层次聚类方法?层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为: 凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇, 然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。?层次凝聚的代表是 AGNES 算法。层次分裂的代表是 DIANA 算法。层次聚类优缺点?层次聚类方法是不可逆的,也就是说,当通过凝聚式的方法将两组合并后,无法通过分裂式的办法再将其分离到之前的状态,反之亦然。?另外,层次聚类过程中调查者必须决定聚类在什么时候停止,以得到某个数量的分类。?在不必要的情况下应该小心使用层次聚类方法。 1、距离的定义距离的定义有很多,但是必须遵循一定的规则。假设表示样本之间的距离,则一般要求它满足如下条件: (1)对一切 i,j都大于等于 0 (2)等于 0当且仅当 i =j (3)对一切 i和j可以互换(4) 如果距离的定义仅满足前三条,则称此距离为广义距离。常用的距离有,明氏距离,兰氏距离,马氏距离,斜交空间距离,列名变量的相似性度量。 ijd jixx与 ijd ijd ijd都成立,,对一切 kjiddd kj ik ij??