文档介绍:摘 要
随着数据收集和数据存储技术的发展,各机构组构积累了海量的数据,但如何从爆
炸性增长的海量数据中获得有用的信息成为了一个巨大的挑战,为此数据挖掘应运而
生,并显示出强大的生命力。数据挖掘就是从大量数据中提取可信的、新颖的、有效的
并能被人们所理解的模式的处理过程。它是一个多学科领域,包括人工智能、数据库技
术、统计学、机器学习、模式识别、知识库系统、信息检索、知识获取、数据可视化和
高性能计算等学科的内容。其中聚类分析是数据挖掘中的一个重要研究领域,它把一个
没有类别标记的样本集按某种准则划分成若干个子集(类别),使相似的样本尽可能归
成一类,而不相似的样本尽可能划分到不同的类中。作为一种无监督分类方法,聚类分
析已经广泛应用于模式识别、数据挖掘、计算机视觉和图像处理等许多领域。
本文对聚类分析进行了研究,介绍了聚类的相关理论知识,并对常用的聚类算法及
其相关技术进行了讨论。本文重点分析了应用较为广泛的硬 C-均值算法(HCM)及其
扩展模糊 C-均值算法(FCM),并对其优缺点进行了讨论。针对 FCM 算法需要提供聚类
的数目作为输入参数的不足,通过把模糊 C-均值聚类算法(FCM)和层次聚类相结合,
提出了一种能确定最佳聚类数目的自适应 A-FCM 算法,该算法无需对不同的聚类数目
重新运行,而是对初始聚类的结果簇进行分裂直到满足一定的条件为止。在初始聚类时,
引入了最大最小距离算法来获取初始中心点,从而避免初始中心点过于邻近,提高聚类
质量。在簇的层次分裂过程中,应用 Ward 最小方差方法来选取下一个要分裂的簇,而
最佳的聚类数目则由一个基于组间方差变化量的分值指标来判定。实验表明,A-FCM
算法不但能正确估计最优的簇数目,而且具有较高的运行效率。
最后,本文把 A-FCM 算法运用到系统质量属性分类型数据的分析中。先对系统质
量属性进行了收集和统一编码处理,并针对系统质量属性是分类型数据,引入近似中位
数选取算法来选取实际的对象作为聚类中心。实验结果表明 A-FCM 算法能对系统质量
属性数据进行合理的划分,有效地把数据挖掘算法应用到软件工程领域中。
关键词:数据挖掘;聚类;模糊聚类;层次聚类;分类型数据
I
Abstract
With the development of data collections and data storage, many institutions have
accumulated mass of data. How to obtain useful information from the explosive data has
become a challenging problem. Therefore, the data mining arises and shows strong vitality.
Data mining is a process of extracting credible, novel, and effective mode that can be
understood by people from the large amounts of data. Data mining is a multi-disciplinary field,
including database technology, artificial intelligence, machine learning, statistics, pattern
recognition, knowledge base system, knowledge acquisition, information retrieval,
high-performance computing, data visualization, and so on. Clustering analysis is a very
important field of data mining. It divide