1 / 56
文档名称:

一类高效聚类有效性指标的应用.pdf

格式:pdf   页数:56页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一类高效聚类有效性指标的应用.pdf

上传人:1006108867 2015/10/22 文件大小:0 KB

下载得到文件列表

一类高效聚类有效性指标的应用.pdf

相关文档

文档介绍

文档介绍:独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的
研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表
或撰写过的研究成果,也不包含为获得天津大学或其他教育机构的学位或证
书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中
作了明确的说明并表示了谢意。


学位论文作者签名: 签字日期: 年月日




学位论文版权使用授权书


本学位论文作者完全了解天津大学有关保留、使用学位论文的规定。
特授权天津大学可以将学位论文的全部或部分内容编入有关数据库进行检
索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校
向国家有关部门或机构送交论文的复印件和磁盘。
(保密的学位论文在解密后适用本授权说明)



学位论文作者签名: 导师签名:

签字日期: 年月日签字日期: 年月日
摘要
聚类技术是一门应用十分广泛的技术,它作为无监督模式识别学****过程的一
个重要部分,从上世纪以来一直被深入的学****和研究,并在机器学****数据挖掘
和模式识别等重要研究领域得到了广泛的应用。聚类的目的在于通过把原来的分
散的、看似毫无关系的对象集合分成相似的群或簇,来获得某种内在的联系或是
数据规律。聚类分析的一个关键任务是量化地评价聚类结果,尤其是确定一个最
优的类数或划分结构,而聚类结果的好坏是由聚类有效性来判定的。在工程界已
经提出许多有效性指标量化地估计和评价模糊聚类算法对于给定数据集的聚类
结果。但是由于不合理的结构和极大的时间耗费,迄今这些有效性指标几乎都无
法满足应用的一般性需求。本文在对聚类有效性分析原理理解的基础上,通过对
多种聚类有效行指标的介绍及比对,首先提出了一个基于 Gerschgorin 圆盘定理
的聚类有效性指标来估计模糊聚类的类数,其次,在基于 k-means 算法和 FCM
算法的基础上提出了两种新的聚类有效性指标。本文做了以下几个方面的工作并
进行了较为深入的研究:
,重点阐述多种聚类有效性指标的
原理与过程,总结了 Xie-Beni 指标、DB 指标、PB 指标、熵指标等聚类有效性
指标的原理及应用,并对常用的各种聚类有效性指标从运算速度、聚类精度等角
度进行分析对比。
Gerschgorin 圆盘定理的聚类有效性指标来估计模糊聚类
的类数。首先,由模糊聚类结果计算一个不同类之间的相关矩阵,接着求出该矩
阵的特征值和特征向量,最后,基于经典 Gerschgorin 圆盘定理求解最优的类数。
,结合目前广泛使用的 c-means
算法和 FCM 算法,提出了两对分别用于评价硬聚类结果和模糊聚类结果的有效
性指标,并分析了它们的基本特征,通过两组实验,对这两对有效性指标的正确
性、一般性和时间效率做了检验。


关键词:聚类技术,聚类有效性分析,聚类有效性指标,Gerschgorin 圆盘定理,
硬聚类,模糊聚类
ABSTRACT

Clustering is a kind of technologies which is widely used as an important part of
unsupervised pattern recognition, it has been an in-depth study and research since the
last century, and it has been widely applied in machine learning, data mining, pattern
recognition, and other important research fields. The purpose of clustering is to get
some kind of intrinsic connections or rules bining similar objects into
group or cluster, which seems have no relevancy at all.
The key task of clustering analysis is the quantitative evaluation of clustering
results, especially to determine the optimal cluster number or a di