1 / 16
文档名称:

层次聚类算法应用(共16页).doc

格式:doc   大小:421KB   页数:16页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

层次聚类算法应用(共16页).doc

上传人:rsqcpza 2022/3/19 文件大小:421 KB

下载得到文件列表

层次聚类算法应用(共16页).doc

文档介绍

文档介绍:精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
安 徽 三 联 学 用的聚类算法,它在迭代的过程中直到所有的数据都属于同一个簇才停止迭代,但是层次聚类也存在几个缺点,如聚类的时空复杂度[4]高、聚类的簇效率底、误差较大等.
层次聚类分析算法的有效性研究
针对如何从层次聚类算法得到样本集的多种聚类结果中获得用户最满意的聚类结果,在深入研究聚类有效性的基础上
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
,通过模糊相似性关系刻画聚类的类内致密性和类间分离性,可以建立一个聚类的有效性函数.在人工和实际数据集上的实验都表明了该有效性函数具有良好的性能.
层次聚类算法,特别是凝聚式算法在计算上简单、快捷,而且能够得到相近的最终结果,所以层次聚类算法的应用较为广泛[5].虽然该类算法把数据集的多种分类结果都展现了出来,但是从算法所得到的各类分类结果中获得用户最满意的分类情况却成了一个问题.根据模糊集理论[6],系统树结构的每一层是由阈值决定的.因此,最优聚类结果的选取问题就是最优阈值的选取问题.对于最优阈值的选取问题,使用统计量是研究者们比较认可的方法.当然随着模糊数学研究的深入,近几年来也有新的解决方法,Nasibov和Ulutagay提出了一个对于噪声更为稳定的FJP(fuzzy joint points)算法.该算法的基本思想是根据样本点与样本点之间的距离计算模糊关系矩阵,对于某一,建立截集和等价类.此时,这些等价类决定了模糊聚类的每个截集.但并非对每个都计算截集,而是只计算影响聚类个数的对应的截集.最终的截集是由取值区间上的最大值确定的.FJP算法已被证明能成功检测团装数据集及流形状数据集,即使添加噪声点后FJP算法也能成功识别流形状数据集.如何衡量一个聚类结果的好坏,以及如何确定最优聚类个数,这些都是聚类有效性问题.关于模糊均值算法聚类有效性问题的研究也已经有了很丰硕的成果,从1974年开始研究者们提出了许多有效性函数.这些有效性函数构建聚类有效性指标的定义应当是客观的.通常情况下,刻画聚类有效性有2个标准:类内致密性和类间分离性.统计量也是从类内致密性和类间分离性2个方面考虑的.对于层次聚类算法的有效性研究,很多研究者还试图从模糊数学理论着手.范九伦和吴成茂对基于模糊集合定义的若干公式在聚类有效性方面的性质进行了讨论,并对分类性能进行实验,筛选出2有应用价值的公式.这里通过样本间的相似性关系定义类与类间的分离性以及同一个类别内部的一致性,从而使得计算过程得到简化.
有效性函数的定义
字典上将类定义为许多相似或同事物的综合.这个定义包含2层含义:第1
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
层,在同一个类内的样本相互之间具有相似或相同的属性,也就是说,聚类的致密性度量的值应该是极小化的,否则,如果属性不同的样本被划分到同一个类内,那么这个类的类内致密性度量的值就会较大;第2层是好的聚类的各个类别间的分离性[7]应该是很好的,如果本应属于同一个类的样本被分到不同类别内,那么类与类之间的重叠就会较大,也就是说,一个好的聚类结果得到的类别之间具有较大的离散性.本文将通过样本间的相似性度量给出类内致密性度量和类间离散性[7]度量的定义.
设样本集通过某相似性度量得到的相似性矩阵为,其通过凝聚式层次聚类算法得到的系统树图为.对于此系统树图中的任何一层,设其中包含个聚类,每个聚类中含有个样本,.本文将所有样本间的相似性的算术平均值叫做样本集的平均相似性向量,即.对于一个类,这里把类内所有样本间相似性的算术平均值叫做类内平均相似性向量.
类是具有相似属性样本的集合,同一类内样本相互间的相似性差异相对较小.也就是说,每个样本与其他样本的相似性与类内平均相似性向量就会相对小.于是有下面的定义:
定义1 (类内致密性度量) 设是样本集的层次聚类系统树图中某一层,并设其中包含个聚类每个聚类中含有个样本,.样本集的聚类结果的类内致密性度量定义为:
(2-1)
若要类与类间的分离性较好,各类的平均相似性向量与样本集平均相似性向量的差异必然要大.由此本文通过