文档介绍:硕士研究生论文答辩PPT
1
2
3
课题的背景
基于Hadoop平台的Canopy-Kmeans并行算法
课题总结
Cloud Computing
4
实验与结果分析
相关概念
Cloud Computi算法,第二阶段执行Kmeans算法。
第一阶段Canopy算法的MapReduce实现
实现Canopy算法包括三个MR,即三个Job,可以描述为下面2个步骤:
(1)Job1:将输入数据处理为Canopy算法可以使用的输入格式。
(2)Job2:每个Mapper针对自己的输入执行Canopy聚类,输出每个Canopy的中心向量。
(3)Job2:每个Reducer接收Mapper的中心向量,并加以整合以计算最后的Canopy的中心向量。
(4)Job3:根据Job2的中心向量来对原始数据进行分类。
Cloud Computing
第二阶段Kmeans算法的MapReduce实现
Kmeans算法利用上一阶段的生成的簇中心向量列表,对数据对象集合进行划分其主要的MapReduce编程模型包括了Map、Combine和Reduce三个阶段。
Map阶段
输入依然是各个数据块集合,输入格式为<key1,value1〉形式Map函数的逻辑就是将本节点上的数据对象划到离其最近的簇向量中去,输出格式也是<key2,value2>
Combine阶段
Combine函数用于合并Map结果中相同的key2的键值对,输入是Map的输出m<key2,value2〉,输出依然是键值对可以表示为<lcey3,value3>,key3依然还是簇类向量标识符,value3为相同key3的所有向量组合和这些向量的数目。
Reduce阶段
处理属于同一簇的所有数据对象向量,并重新生成新的簇类中心向量,其输入输出均是键值对形式,输入信息是各个子节点的combine结果,输出信息是簇类标识符和新的簇类中<key4,value4>
1
2
3
课题的背景
基于Hadoop平台的Canopy-Kmeans并行算法
课题总结
Cloud Computing
4
实验与结果分析
Cloud Computing
实验平台的搭建
由于实验条件有限,本实验平台集群共4台计算机,搭建4个节点,服务器的配置如下表所示:
实验环境 实验配置
硬 盘 120GB
内 存 2GB
操作系统 Xp/
Hadoop
服务器的网络配置如下
主机名 IP地址
Master
Slave1
Slave2
Slave3
操作系统:CentOS 6
JDK 版本:
Hadoop版本:
Mahout版本:
Cloud Computing
软件环境
搭建Hadoop集群,Hadoop部署情况:
HDFS MapReduce IP地址
NameNode JobTracker
DataNode TaskTracker
DataNode TaskTracker
DataNode TaskTracker
Cloud Computing
启动集群和Mahout
Web UI查看集群是否启动成功,在Master节点上启动Firefox浏览器,在浏览器地址栏输入http://master:50070/,检查namenode和datanode是否启动正常。:
当Hadoop平台正常启动后,然后启动Mahout
Cl