1 / 11
文档名称:

各种聚类算法介绍及对比.docx

格式:docx   大小:277KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

各种聚类算法介绍及对比.docx

上传人:luciferios04 2019/10/3 文件大小:277 KB

下载得到文件列表

各种聚类算法介绍及对比.docx

文档介绍

文档介绍:各种聚类算法介绍及对比————————————————————————————————作者:————————————————————————————————日期: 一、层次聚类1、层次聚类的原理及分类1)层次法(Hierarchicalmethods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离法,类平均法等。比如最短距离法,将类与类的距离定义为类与类之间样本的最短距离。层次聚类算法根据层次分解的顺序分为:自下底向上和自上向下,即凝聚的层次聚类算法和分裂的层次聚类算法(agglomerative和divisive),也可以理解为自下而上法(bottom-up)和自上而下法(top-down)。自下而上法就是一开始每个个体(object)都是一个类,然后根据linkage寻找同类,最后形成一个“类”。自上而下法就是反过来,一开始所有个体都属于一个“类”,然后根据linkage排除异己,最后每个个体都成为一个“类”。这两种路方法没有孰优孰劣之分,只是在实际应用的时候要根据数据特点以及你想要的“类”的个数,来考虑是自上而下更快还是自下而上更快。至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等(其中类平均法往往被认为是最常用也最好用的方法,一方面因为其良好的单调性,另一方面因为其空间扩张/浓缩的程度适中)。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。 2)Hierarchicalmethods中比较新的算法有BIRCH(BalancedIterativeReducingandClusteringUsingHierarchies利用层次方法的平衡迭代规约和聚类)主要是在数据量很大的时候使用,而且数据类型是numerical。首先利用树的结构对对象集进行划分,然后再利用其它聚类方法对这些聚类进行优化;ROCK(AHierarchicalClusteringAlgorithmforCategoricalAttributes)主要用在categorical的数据类型上;Chameleon(AHierarchicalClusteringAlgorithmUsingDynamicModeling)里用到的linkage是kNN(k-nearest-neighbor)算法,并以此构建一个graph,Chameleon的聚类效果被认为非常强大,比BIRCH好用,但运算复杂度很高,O(n^2)。2、层次聚类的流程凝聚型层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类,它们只是在簇间相似度的定义上有所不同。这里给出采用最小距离的凝聚层次聚类算法流程:(1)将每个对象看作一类,计算两两之间的最小距离;(2)将距离最小的两个类合并成一个新类;(3)重新计算新类与所有类之间的距离;(4)重复(2)、(3),直到所有类最后合并成一类。 聚类的效果如下图,黑色是噪音点:另外我们可以看出凝聚的层次聚类并没有类似基本K均值的全局目标函数,没有局部极小问题或是很难选择初始点的问题。合并的操作往往是最终的,一旦合并两个簇之后就不会撤销。当然其计算存储的代价是昂贵的。3、层次聚类的优缺点优点:1,距离和规则的相似度容易定义,限制少;2,不需要预先制定聚类数;3,可以发现类的层次关系;4,可以聚类成其它形状缺点:1,计算复杂度太高;2,奇异值也能产生很大影响;3,算法很可能聚类成链状 r语言中使用hclust(d,method="complete",members=NULL):进行层次聚类。d为距离矩阵;method表示类的合并方法,plete最长距离法,median中间距离法,mcquitty 相似法,average 类平均法,centroid重心法,ward离差平方和法;members为NULL或d长度的矢量。二、划分聚类法k-means基于划分的方法(Partition-basedmethods):其原理简单来说就是,想象你有一堆散点需要聚类,想要的聚类效果就是“类内的点都足够近,类间的点都足够远”。首先你要确定这堆散点最后聚成几类,然后挑选几个点作为初始中心点,再然后依据预先定好的启发式算法(heuristicalgorithms)给数据点做迭代重置(iterativerelocation),直到最后到达“类内的点都足够近,类间的点都足够远”的目标效果。Partition-basedmethods聚类多适用于中等体量的数据集,但我

最近更新

公务员年度考核工作总结最新与公务员年度考核.. 8页

2025年度委托收款服务提供商代理合同 8页

2025年度夫妻婚内借款协议附电子版及法律咨询.. 10页

2025年度大米加工技术改造与节能减排合同 9页

2025年度大型牧场养牛合作及技术服务合同 9页

2025年度多人合伙创立文化体验馆合作协议 9页

2025年度外墙抹灰工程节能评估合同 7页

2025年度塔吊安装与拆卸施工安全评估合同 8页

2025年度城市绿地场地无偿使用与生态保护协议.. 8页

2025年度城市中心区域二手房买卖中介佣金合同.. 8页

2025年度地下室租赁合同——城市地下公共服务.. 8页

2025年度土地流转与农村人才引进培养协议 8页

2025年度国际贸易出口合同履行流程规范图 9页

2025年度国有企业员工健康体检全面合作合同 9页

2025年度商铺店面LED照明系统改造装修协议 9页

细胞膜动态调控机制-第1篇-全面剖析 25页

2025年度员工解除劳动合同经济补偿及离职手续.. 8页

2025年度员工入股股权激励合同协议书 7页

2025年度合资建筑节能照明系统研发合同 8页

2025年度合作建房建筑安全防护合同 9页

2025年度合伙人个人股权转让合同 7页

2025年度双方自愿调解协议书:金融领域信用纠.. 7页

2025年度原创设计商标授权与推广合作协议 8页

2025年度卫生间防水施工与智能化系统集成合同.. 8页

2025年度华过户协议书:个人二手车交易过户安.. 9页

2025年度医院与医院间医疗设备租赁合同 9页

2025年度医疗机构影像科技师岗位聘用合同书 7页

2025年度劳动合同电子台账系统定制开发与实施.. 9页

2025年度动产租赁担保合同成立与生效规定 9页

2025年度创意设计街区商铺租赁合同 8页