文档介绍：创新性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名: 日期关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文(与学位论文相关)工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后遵守此规定)本学位论文属于保密,在年解密后适用本授权书。本人签名: 日期导师签名: 日期摘要随着信息时代的快速发展,其数据具有海量、异构、多样、动态变化等特性。面对这些海量数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。人们迫切需要强有力的数据分析工具从繁杂的海量数据中找到有用知识,发现其中存在的关系和规则,帮助人们进行决策、研究,从而带来巨大的信息价值。聚类算法作为一种非监督学****的方法,是包括数据挖掘、机器学****模式识别、图像分析等诸多领域数据统计分析的一种常用技术。Map-Reduce编程模型由Google提出的,是当前应用较为广泛的分布式计算框架。它将业务逻辑从复杂的底层实现细节中分离出来,该模型主要是面向海量数据的处理,与传统的并行计算模型相比,它对任务调度、数据分块、容错性等问题进行了封装,极大地简化了程序的设计。本文通过深入学****k-means和canopy-k-means聚类算法,在Map-Reduce上实现了这两种算法的并行化设计,并将其部署在由4台机器组成的Hadoop集群上进行测试。实验结果表明,基于Map-Reduce的canopy-k-means并行算法比k-means并行算法的聚类结果准确率更高,收敛速度更快。这两种并行算法能够得到较好的聚类结果,在大数据集上,具有较好的加速比和良好的扩展性。关键词:Hadoop Map-Reduce k-means 聚类分布式计算AbstractWiththeswiftdevelopmentofageofinformation,dataischaracterizedbydiverse,massive,“richingindatabutlackinginknowledge”.plexandmassdata,thendiscovertherelationshipandrulesinittohelppeoplemakedecisions,research,,beingamethodofunsupervisedleaning,montechniqueforstatisticaldataanalysisusedinmanyfields,includingdatamining,machinelearning,-putingframework,,puting,Map-Reducetakescareofthedetailsoftaskscheduling,partitioningtheinputdata,handlingmachinefailures,andsoon,:k-meansclusteringandcanopy-k-meansclustering,thendesignedparallelalgorithmsbasedonMap--k-meansbasedonMap-uracy,moreconvergencethank-meansbasedonMap-Redu