1 / 11
文档名称:

各种聚类算法介绍及对比.docx

格式:docx   大小:277KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

各种聚类算法介绍及对比.docx

上传人:luciferios04 2019/10/3 文件大小:277 KB

下载得到文件列表

各种聚类算法介绍及对比.docx

文档介绍

文档介绍:各种聚类算法介绍及对比————————————————————————————————作者:————————————————————————————————日期: 一、层次聚类1、层次聚类的原理及分类1)层次法(Hierarchicalmethods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离法,类平均法等。比如最短距离法,将类与类的距离定义为类与类之间样本的最短距离。层次聚类算法根据层次分解的顺序分为:自下底向上和自上向下,即凝聚的层次聚类算法和分裂的层次聚类算法(agglomerative和divisive),也可以理解为自下而上法(bottom-up)和自上而下法(top-down)。自下而上法就是一开始每个个体(object)都是一个类,然后根据linkage寻找同类,最后形成一个“类”。自上而下法就是反过来,一开始所有个体都属于一个“类”,然后根据linkage排除异己,最后每个个体都成为一个“类”。这两种路方法没有孰优孰劣之分,只是在实际应用的时候要根据数据特点以及你想要的“类”的个数,来考虑是自上而下更快还是自下而上更快。至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等(其中类平均法往往被认为是最常用也最好用的方法,一方面因为其良好的单调性,另一方面因为其空间扩张/浓缩的程度适中)。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。 2)Hierarchicalmethods中比较新的算法有BIRCH(BalancedIterativeReducingandClusteringUsingHierarchies利用层次方法的平衡迭代规约和聚类)主要是在数据量很大的时候使用,而且数据类型是numerical。首先利用树的结构对对象集进行划分,然后再利用其它聚类方法对这些聚类进行优化;ROCK(AHierarchicalClusteringAlgorithmforCategoricalAttributes)主要用在categorical的数据类型上;Chameleon(AHierarchicalClusteringAlgorithmUsingDynamicModeling)里用到的linkage是kNN(k-nearest-neighbor)算法,并以此构建一个graph,Chameleon的聚类效果被认为非常强大,比BIRCH好用,但运算复杂度很高,O(n^2)。2、层次聚类的流程凝聚型层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类,它们只是在簇间相似度的定义上有所不同。这里给出采用最小距离的凝聚层次聚类算法流程:(1)将每个对象看作一类,计算两两之间的最小距离;(2)将距离最小的两个类合并成一个新类;(3)重新计算新类与所有类之间的距离;(4)重复(2)、(3),直到所有类最后合并成一类。 聚类的效果如下图,黑色是噪音点:另外我们可以看出凝聚的层次聚类并没有类似基本K均值的全局目标函数,没有局部极小问题或是很难选择初始点的问题。合并的操作往往是最终的,一旦合并两个簇之后就不会撤销。当然其计算存储的代价是昂贵的。3、层次聚类的优缺点优点:1,距离和规则的相似度容易定义,限制少;2,不需要预先制定聚类数;3,可以发现类的层次关系;4,可以聚类成其它形状缺点:1,计算复杂度太高;2,奇异值也能产生很大影响;3,算法很可能聚类成链状 r语言中使用hclust(d,method="complete",members=NULL):进行层次聚类。d为距离矩阵;method表示类的合并方法,plete最长距离法,median中间距离法,mcquitty 相似法,average 类平均法,centroid重心法,ward离差平方和法;members为NULL或d长度的矢量。二、划分聚类法k-means基于划分的方法(Partition-basedmethods):其原理简单来说就是,想象你有一堆散点需要聚类,想要的聚类效果就是“类内的点都足够近,类间的点都足够远”。首先你要确定这堆散点最后聚成几类,然后挑选几个点作为初始中心点,再然后依据预先定好的启发式算法(heuristicalgorithms)给数据点做迭代重置(iterativerelocation),直到最后到达“类内的点都足够近,类间的点都足够远”的目标效果。Partition-basedmethods聚类多适用于中等体量的数据集,但我

最近更新

车抵押借款合同模板(28篇) 132页

一个简单的诊断霍乱弧菌的实验室方法 2页

青春校园演讲稿集锦(33篇) 59页

《搜神后记》同义词研究的开题报告 2页

《地震研究》19922年总目录 2页

《公路工程技术标准》修订介绍 2页

“黄金十年”后陕西省煤炭行业面临的问题及对.. 2页

“精神生产”简介——苏联经济学研究动态 2页

“横锻及横轧时金属的变形与破裂的研究”一文.. 2页

“复关”对山东省价格的影响及对策研究 2页

γ-聚谷氨酸水凝胶的制备、性能及其应用 2页

[CuCo(CO) 4] n的能谱和能带研究 2页

Z12V190B型高速柴油机连杆静态电测强度分析 2页

北京市海淀区2014-2015学年八年级上期末练习数.. 7页

Uras3G红外线气体分析仪及其应用 2页

t—检验在中长期预报中的应用 2页

TFY-Ⅲ型多功能土壤分析仪问世 2页

TD-40塔机回转机构的改造 2页

2025年幼儿园大班工作心得体会感悟 15页

SVAT模型的组成及其耦合方法研究 2页

2025年幼儿园园长的个人学期工作总结范文5篇幼.. 17页

2025年幼儿园四岁宝宝经典童话故事全集 6页

SCF中避免浮地电压反向开关的一种方法 2页

2025年幼儿园元旦活动方案策划 7页

2025年幼儿园保育老师的职责 24页

R-250陶瓷放电管在防护工程中应用特点 2页

2025年吕梁职业技术学院单招职业适应性测试题.. 74页

高清地图中国31省市区最全河流水系分布地图建.. 25页

2023年北京市事业单位统考真题及答案 11页

煤矿春季预防性电气试验试措施样板 18页