1 / 51
文档名称:

基于Hadoop平台的分布式EM聚类算法.doc

格式:doc   页数:51页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Hadoop平台的分布式EM聚类算法.doc

上传人:531704189 2016/7/16 文件大小:0 KB

下载得到文件列表

基于Hadoop平台的分布式EM聚类算法.doc

相关文档

文档介绍

文档介绍:基于 Hadoop 平台的分布式 EM 聚类算法摘要数据挖掘( Data Mining , DM )是从海量数据中发现有意义的模式和规则的处理过程,也可称为数据库中的知识发现( Knowledge Discovery in DataBase , KDD )。它交叉于多个学科,包括统计学、机器学****数据库、模式识别和人工智能等领域的众多知识。聚类分析作为数据挖掘领域的一个重要研究方向,它是一种将数据对象划分成若干簇或类的过程,使每一类中的对象高度相似,而不同类之间的对象具有较大的差异。然而随着数据规模的迅猛增长,单机串行的聚类算法遇到了瓶颈,主要表现在数据无法一次性装入内存、执行效率差、无法实现并行处理等方面。幸运的是, Hadoop 分布式计算技术的出现及发展为解决这类问题提供了一种有效的手段。 Hadoop 分布式平台通过 HDFS (分布式文件系统)存储数据,并结合 MapReduce 编程框架实现对大规模数据集的并行处理。科研工作者和用户可以根据串行聚类算法的特点,结合 MapReduce 编程框架, 在不需要过多了解 Hadoo p 平台底层细节的情况下,能够很容易的实现算法的并行化,从而提高算法的执行效率,帮助人们从大数据中获取有价值的信息和知识。在聚类分析中,合理设置初始化参数是基于高斯混合分布的 EM 聚类算法关键指标。初始化参数的设置不仅会影响算法的迭代次数和算法执行的复杂度,而且会影响到最终的聚类结果。因此,一个良好的初始化参数选取可以在减少迭代次数的同时,提高聚类结果的准确度。本文通过对随机初始化、 K均值初始化、层次初始化等传统初始化方法进行分析研究,提出了基于密度的 MergeC 方法。该方法依据每类样本中心部位密度大、边缘部位密度小的特点,将各类中心部位的最优候选中心提取出来进行合并,从而得到高斯混合模型的初始参数值。通过实验和分析表明,该方法是高效、可行的。针对传统 EM 算法中存在数据需要多次载入内存、并行性较差以及执行效率不高等问题,本文将串行 EM 算法与 MapReduce 框架结合,给出了基于 Hadoo p 平台的分布式 EM 聚类算法,实现了 EM 算法的分布式并行处理方案。该算法通过合理的冗余操作,采用 Mean MapReduce 和 VarMapReduce 两个阶段分步计算各类的均值和协方差矩阵,达到对海量数据的分布式处理。最后通过在 Hadoo p 集群上对不同大小的数据集进行试验对比,结果表明随着数据节点的增加,算法的执行速度得到了极大提高。算法实现了大数据并行聚类分析和挖掘,显著提高了 EM 算法处理海量数据集的执行效率。关键词: EM 聚类算法、 Hadoop 平台、 MapReduce 框架、高斯混合分布目录基于 HADOOP 平台的分布式 EM 聚类算法............................................................ 1 摘要................................................................................................................................ 1 目录................................................................................................................................ 3 第一章绪论.................................................................................................................. 5 研究背景及选题意义......................................................................................... 5 国内外研究现状................................................................................................. 5 Hadoop 云计算平台...................................................................................... 5 聚类分析......................................