文档介绍：第卷第期计算机科学
38 年 10月
2011 puter Science Oct 2011
基于云计算平台的并行
Hadoop k-means
聚类算法设计研究
赵卫中1,4 马慧芳2,4 傅燕翔3 史忠植4

湘潭大学信息工程学院湘潭西北师范大学数学与信息科学学院兰州
( 411105)1 ( 730070)2
湘潭大学机械工程学院湘潭
( 411105)3
中国科学院计算技术研究所智能信息处理重点实验室北京
( 100190)4

摘要随着数据库技术的发展和的迅速普及实际应用中需要处理的数据量急剧地增长致聚类研究面临
, ,
许多新的问题和挑战如海量数据和新的计算环境等深入研究了基于云计算平台的并行聚类算
, 。 Hadoop k-means
法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、
扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。
关键词云计算平台并行
,Hadoop , k-means,MapReduce

Research on Parallel k-means Algorithm Design Based on Hadoop Platform
ZHAO Wei-zhong1,4 MA Hui-fang2,4 FU Yan-xiang3 SHI Zhong-zhi 4
(College of Information Engineering,Xiangtan University,Xiangtan 411105,China)1
(College of Mathematics and Information,Northwest Normal University,Lanzhou 730070,China)2
(College of Mechanical Engineering,Xiangtan University,Xiangtan 411105,China)3
(Key Laboratory of Intelligent Information Processing,Institute puting Technology,Chinese Academy of Sciences,Beijing 100190,China)4

Abstract In the past decades,data clustering has been studied extensively and a mass of methods and theories have
been ,with the development of database and popularity of ,a lot of new challenges such as
massive data and puting environment lie in the research on data conducted a deep research on
parallel k-means algorith