文档介绍：模糊聚类综述摘要:本文首先对模糊聚类进行了概述,然后论述了模糊据类分析法,最后从四个方面综述模糊聚类的研究进展,并论述了其在模式识别及图像处理中的应用。关键词:模糊聚类,模糊相似矩阵,图像处理聚类分析是一种数据划分或分组处理的重要手段和方法。其操作的目的在于将特征空间中一组没有类别标记的矢量按某种相似性准则划分到若干个子集中,使得每个子集代表整个样本集的某个或者某些特征和性质。从这个意义上讲,聚类又称为无监督的分类。传统的聚类分析把每个样本严格地划分到某一类,属于硬划分的范畴。实际上,样本并没有严格的属性,它们在性态和类属方面存在着中介性。随着模糊集理论的提出,硬聚类被推广为模糊聚类。在模糊聚类中,每个样本不再仅属于某一类,而是以一定的隶属度分属于每一类。换句话说,通过模糊聚类分析,得到了样本属于各个类别的不确定性程度,即建立起了样本对于类别的不确定性的描述,这样就能更准确地反映现实世界。。实际的分类问题常伴有模糊性,因此,聚类问题用模糊数学的方法解决更确切。在实际的模糊聚类问题中,主要有用模糊等价关系进行的聚类分析和基于模糊拟序关系的聚类分析。其中,前者较为常用。 步骤一:标定。设X:为被分类对象全体,每一对象由一组数据表征。建立x上的模糊相似关系R,R可表示为模糊相似矩阵R=,其中与的相似度可根据实际情况,从下列方法中选择一种来规定。1)数量积:,其中M为一适当正数,)夹角余弦:3)相关系数:,其中=,=。其它还有:最大最小法,算术平均最小法,几何平均最小法,绝对值指数法等。以上各种方法,究竟选择哪一种,根据实际问题的特点进行选择。步骤二:聚类(画聚类图)。用上述方法建立起来的模糊关系R,一般只具有自反性与对称性,不满足传递性。一般需求模糊矩阵R的传递闭包t(R)(包含R的最小的模糊传递矩阵),使其具有传递性,再进行分类,求聚类图。最后,确定最佳阈值λ。聚类图给出各k值的分类,形成一种动态聚类,便于全面了解样本的聚类。最后根据实际需要合理选择某阈值λ,在适当阈值上进行截取,便可得到所需分类。 方法一:传递闭包法。步骤如下: (1)从传递矩阵R出发,利用平方法,依次计算直至首次出现=,可以证明就是R的传递闭包t(R)。(2)=t(R)为模糊等价矩阵,取λ从1取到0,依次截得等价关系,它们各自将X分类。由于,这就是说对于,,属于同一类,则对于,,也属于同一类。因而由所得的分类是由所得分类的加细。这样当λ从1取到0时,所得分类逐步归并,可形成一个聚类图。方法二:直接聚类法。即建立模糊相似矩阵R后,不需求其传递闭包,直接从R出发,可求得聚类图。其步骤如下: (1)取=1(最大值),求每个的相似类将满足的与放在一类,构成相似类。由于R不满足传递性,不同的相似类可能有公共元素,此时将有公共元素的相似类归并。可以证明:关于的相似类可归并为关于的等价类。于是可得关于传递闭包对应于=1的等价类。(2)取等于次大值。从R中找出所有=,将上述对应于=1的等价类中与归并。可以证明:通过对高阈值的等价类(关于的归并,可直接得到对应低阈值的等价类(关于),归并原则是,若=,将与合并,于是可得对应于的等价类。 (3)取等于第三大值。从中找出所有=,将对应于的的等价类中与。归并,将所有这种情况归并后,可得的对应于的等价类。 (4)依此类推,直至归并至X成为一类。方法三:聚类分析的最大树法。 (1)先画出被分类的元素集,从矩阵R中按从大到小的顺序依次连边,标上权重,若在某一步会出现回路,便不画那一步。直至所有元素有路相通为止,这样就得到一棵最大树T。 (2)取定阈值,在T中砍去权重小于的边,便可将元素分类,互相连通的元素归为同类。可以证明:T中去掉小于的边,将T分裂成若干树,则(i=1,2,…,m)的顶点集对应的等价类。,模糊聚类逐步成为聚类分析研究的主流。八十年代后,其研究主要集中在:(1)模糊聚类新方法研究;(2)模糊聚类算法的实现途径; (3)聚类有效性研究;(4)聚类的实际应用等四个方面。以下就这四个方面综述模糊聚类的研究进展,并指出进一步研究的主要方向。 第一个系统地研究模糊聚类的是Ruspini。1969年他定义了数据集模糊划分的概念。同时,Zadeh,Tarmura等也提出基于相似关系和模糊关系的聚类方法。但由于该类方法不适于大数据集,这方面的工作已经开展的很少了。 为解决模糊聚类问题人们作了各种尝试;比如借助图论、数据集的凸分解、动态规划以及基于难以辨别关系等技术。然而由于种种原因,这些方法均不能奏效。实际中受到普遍欢迎的是基于目标函数的聚类方法,它具有设计简