1 / 11
文档名称:

各种聚类算法介绍及对比.docx

格式:docx   大小:277KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

各种聚类算法介绍及对比.docx

上传人:luciferios04 2019/10/3 文件大小:277 KB

下载得到文件列表

各种聚类算法介绍及对比.docx

文档介绍

文档介绍:各种聚类算法介绍及对比————————————————————————————————作者:————————————————————————————————日期: 一、层次聚类1、层次聚类的原理及分类1)层次法(Hierarchicalmethods)先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。其中类与类的距离的计算方法有:最短距离法,最长距离法,中间距离法,类平均法等。比如最短距离法,将类与类的距离定义为类与类之间样本的最短距离。层次聚类算法根据层次分解的顺序分为:自下底向上和自上向下,即凝聚的层次聚类算法和分裂的层次聚类算法(agglomerative和divisive),也可以理解为自下而上法(bottom-up)和自上而下法(top-down)。自下而上法就是一开始每个个体(object)都是一个类,然后根据linkage寻找同类,最后形成一个“类”。自上而下法就是反过来,一开始所有个体都属于一个“类”,然后根据linkage排除异己,最后每个个体都成为一个“类”。这两种路方法没有孰优孰劣之分,只是在实际应用的时候要根据数据特点以及你想要的“类”的个数,来考虑是自上而下更快还是自下而上更快。至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等(其中类平均法往往被认为是最常用也最好用的方法,一方面因为其良好的单调性,另一方面因为其空间扩张/浓缩的程度适中)。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。 2)Hierarchicalmethods中比较新的算法有BIRCH(BalancedIterativeReducingandClusteringUsingHierarchies利用层次方法的平衡迭代规约和聚类)主要是在数据量很大的时候使用,而且数据类型是numerical。首先利用树的结构对对象集进行划分,然后再利用其它聚类方法对这些聚类进行优化;ROCK(AHierarchicalClusteringAlgorithmforCategoricalAttributes)主要用在categorical的数据类型上;Chameleon(AHierarchicalClusteringAlgorithmUsingDynamicModeling)里用到的linkage是kNN(k-nearest-neighbor)算法,并以此构建一个graph,Chameleon的聚类效果被认为非常强大,比BIRCH好用,但运算复杂度很高,O(n^2)。2、层次聚类的流程凝聚型层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类,它们只是在簇间相似度的定义上有所不同。这里给出采用最小距离的凝聚层次聚类算法流程:(1)将每个对象看作一类,计算两两之间的最小距离;(2)将距离最小的两个类合并成一个新类;(3)重新计算新类与所有类之间的距离;(4)重复(2)、(3),直到所有类最后合并成一类。 聚类的效果如下图,黑色是噪音点:另外我们可以看出凝聚的层次聚类并没有类似基本K均值的全局目标函数,没有局部极小问题或是很难选择初始点的问题。合并的操作往往是最终的,一旦合并两个簇之后就不会撤销。当然其计算存储的代价是昂贵的。3、层次聚类的优缺点优点:1,距离和规则的相似度容易定义,限制少;2,不需要预先制定聚类数;3,可以发现类的层次关系;4,可以聚类成其它形状缺点:1,计算复杂度太高;2,奇异值也能产生很大影响;3,算法很可能聚类成链状 r语言中使用hclust(d,method="complete",members=NULL):进行层次聚类。d为距离矩阵;method表示类的合并方法,plete最长距离法,median中间距离法,mcquitty 相似法,average 类平均法,centroid重心法,ward离差平方和法;members为NULL或d长度的矢量。二、划分聚类法k-means基于划分的方法(Partition-basedmethods):其原理简单来说就是,想象你有一堆散点需要聚类,想要的聚类效果就是“类内的点都足够近,类间的点都足够远”。首先你要确定这堆散点最后聚成几类,然后挑选几个点作为初始中心点,再然后依据预先定好的启发式算法(heuristicalgorithms)给数据点做迭代重置(iterativerelocation),直到最后到达“类内的点都足够近,类间的点都足够远”的目标效果。Partition-basedmethods聚类多适用于中等体量的数据集,但我

最近更新

“功率法测平衡”技术的应用及节能潜力分析 2页

“交流接触器无声运行”在我厂的应用 2页

“万县—12”四轮驱动机耕船价值分析初探 2页

“FRT网络频率响应分析仪”通过专家鉴定 2页

’93表面工程科学和技术交流会在都江堰市召开.. 2页

Φ3.8×7.0+2.5m煤磨改造体会 2页

ΓОСТ 2789-51表面光洁度与加工方法 2页

高一文理分科家长会 28页

高一数学函数单调性的证明 35页

北京威奥特信通科技有限公司各部门工作流程 21页

Y—24防霉防锈乳化液的试验研究 2页

X射线荧光光谱法在有色冶金分析中的应用 2页

二00七年教育系统专业技术人员 7页

Xi-3酱油菌株的筛选鉴定与中性蛋白酶的研究 2页

WGZ1213-Ⅱ型喷射炉生产工艺测定 2页

VE述著中某些不妥观点再探讨 2页

UPPU杂混树脂在高性能增强复合材料中的应用 2页

UG NX在太阳能支架设计中的应用 2页

2025年幼儿园学生表扬信 7页

2025年幼儿园大班老师教育随笔 7页

2025年幼儿园大班教育心得体会 28页

TBS粗煤泥分选机在新柳选煤厂的应用 2页

车辆维修完过后的协议 5页

2025年辽宁省交通高等专科学校单招职业倾向性.. 73页

高清地图中国31省市区最全河流水系分布地图建.. 25页

2023年北京市事业单位统考真题及答案 11页

计算能手苏教版四年级下册电子版-94页 7页

剑桥雅思原版真题4 114页

好书推荐——《三毛流浪记》 ppt课件 20页

中国道家龙门派内丹功(张苏辰) 5页