文档介绍:课题名称:数据挖掘中的聚类算法研究研究生姓名:焦守荣指导教师:何建忠学位级别:硕士学科专业:计算机应用技术档号:学号:0228202 关键词: 数据挖掘聚类分析簇代表点密度摘要: 聚类分析是数据挖掘的重要组成部分,近年来在该领域的研究取得了长足的发展。通过对现有的聚类算法的研究,如基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法、基于网格的聚类方法、基于模型的聚类方法以及整合了多种聚类算法的综合算法,可以发现,这些算法在特定的领域中、特定的情形下取得了良好的效果。但由于数据集的增大和数据复杂性的提高,聚类算法无论是从算法运算的时间上,还是从算法本身所需要的存储空间上都急剧的膨胀,使得在现有资源下很难实现数据集的最终聚类。本论文在对各种算法深入分析的基础上,尤其在对基于密度的聚类算法、基于层次的聚类算法和基于划分的聚类算法的深入研究的基础上,提出了一种新的基于密度和层次的快速聚类算法。该算法保持了基于密度聚类算法发现任意形状簇的优点,而且具有近似线性的时间复杂性,因此该算法适合对大规模数据的挖掘。理论分析和实验结果也证明了基于密度和层次的聚类算法具有处理任意形状簇的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的DBSCAN算法。  §§§§§§§§§§§§§§§§§(partitioningmethod).18§(hierarchicalmethod).19§(density-basedmethod).22§(grid-basedmethod).24§(model-basedmethod).26§§§§§§§§§§§§§§§§§§§§§,近年来在该领域的研究取得了长足的发展。通过对现有的聚类算法的研究,如基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法、基于网格的聚类方法、基于模型的聚类方法以及整合了多种聚类算法的综合算法,可以发现,这些算法在特定的领域中、特定的情形下取得了良好的效果。但由于数据集的增大和数据复杂性的提高,聚类算法无论是从算法运算的时间上,还是从算法本身所需要的存储空间上都急剧的膨胀,使得在现有资源下很难实现数据集的最终聚类。本论文在对各种算法深入分析的基础上,尤其在对基于密度的聚类算法、基于层次的聚类算法和基于划分的聚类算法的深入研究的基础上,提出了一种新的基于密度和层次的快速聚类算法。该算法保持了基于密度聚类算法发现任意形状簇的优点,而且具有近似线性的时间复杂性,因此该算法适合对大规模数据的挖掘。理论分析和实验结果也证明了基于密度和层次的聚类算法具有处理任意形状簇的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的DBSCAN算法。关键词:数据挖掘聚类分析簇代表点密度Abstract