文档介绍：(2)基于Hadoop MapReduce并行优化算法性能:目前,基于Hadoop MapReduce并行计算近似谱聚类算法研究刚起步,国内外学者基于Hadoop MapReduce并行计算主要侧重于优化聚类算法性能,提高聚类算法的加速比与可扩展性,以解决不能求解海量算数据聚类问题。研究k-means聚类算法特点,为获得加速比与扩展性,利用MapReduce并行化后部署到Hadoop集群运行[50]与利用Hadoop集群Mapreduce编程模型实现k-means聚类算法降低大数据聚类的时间复杂度[51],bine函数减少网络流量改进基于MapReduce传统的并行k-means聚类算法,用以分析和挖掘海量数据[52];Plaza等人[53]结合高光谱图像中空间和谱信息,在基于商业用途的集群上(包括高性能并行计算体系结构:欧洲巴塞罗那并行计算中心的分布式存储、多指令多数据的多机组等)并行化使用多信道波形变换的无监督技术提出并行数据分析策略;Lv Z等人[54]基于MapReduce并行编程模型并行k-means 聚类算法聚类远程传感图像。
文献[55]是该领域的理论专著,文献[56]和[57]分别是MapReduce并行大规模高维数据集研究的专著和最新的云计算分布式并行研究专著。目前,国内外基于Hadoop MapReduce并行聚类与谱聚类算法研究都处于刚起步状况,其发展趋势:向并行大规模高维数据的近似谱聚类方向发展。
第三节论文工作量及主要贡献
本文在确保谱聚类聚类质量(或准确性)的前提下,为聚类大规模高维数据,对k-means聚类中心初始化位置选择、距离相似度近似法、相似矩阵稀疏化方法、拉普拉斯矩阵特征向量分解、k-means聚类算法以及Apache Hadoop系统MapReduce并行框架进行了深入研究,介绍了谱聚类算法及其近似法研究现状,此外,简单介绍了基于Hadoop MapReduce谱聚类的发展趋势,Hadoop MapReduce平台架构与编程模型等,并从以下三个方面开展了相关研究工作。
一、稀疏化相似矩阵并行分析及MapReduce并行实现
相似矩阵中元素直接决定谱图矩阵中元素的构成,因此影响谱聚类准确性。基于国内外研究现状及发展趋势,本文在前人研究基础上,提出一种新的相似矩阵优化法---使用稀疏化Euclidean距离矩阵并调整为对称矩阵后,对相似矩阵列向量的离群点进行优化,并在优化引理的前提下理论证明该方法最优解的存在,并说明其时间复杂度。论文使用该方法应用于构建相似矩阵并基于Hadoop集群系统下MapReduce并行编程框架,对上述优化后的稀疏相似矩阵进行并行算法设计与并行编程实现,在设计的过程中,分析Hadoop MapReduce并行
前后稀疏化近似相似矩阵的时间复杂度,以及通过大规模高维数据实验验证所设计的Hadoop MapReduce并行算法加速比,使用实验结果阐述应用该方法的ASC并行后的性能。
二、特征向量分解并行分析及MapReduce并行实现
相对于聚类而言谱聚类必须对拉普拉斯矩阵进行特征向量分解,否则,得不到数据集的低阶表示,即维简约。谱聚类算法时间复杂度正是由于其特征分解过程所产生的。针对大规模数据集而言,从理论分析可得出:k-means聚类的时间杂度( )相对于拉普拉斯矩阵特征向量