1 / 31
文档名称:

硕士研究生论文答辩ppt.ppt

格式:ppt   大小:2,362KB   页数:31
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

硕士研究生论文答辩ppt.ppt

上传人:薄荷牛奶 2022/4/22 文件大小:2.31 MB

下载得到文件列表

硕士研究生论文答辩ppt.ppt

相关文档

文档介绍

文档介绍:硕士研究生论文答辩PPT
1
2
3
课题的背景
基于Hadoop平台的Canopy-Kmeans并行算法
课题总结
Cloud Computing
4
实验与结果分析
相关概念
Cloud Computi算法,第二阶段执行Kmeans算法。
第一阶段Canopy算法的MapReduce实现
实现Canopy算法包括三个MR,即三个Job,可以描述为下面2个步骤:
(1)Job1:将输入数据处理为Canopy算法可以使用的输入格式。
(2)Job2:每个Mapper针对自己的输入执行Canopy聚类,输出每个Canopy的中心向量。
(3)Job2:每个Reducer接收Mapper的中心向量,并加以整合以计算最后的Canopy的中心向量。
(4)Job3:根据Job2的中心向量来对原始数据进行分类。
Cloud Computing
第二阶段Kmeans算法的MapReduce实现
Kmeans算法利用上一阶段的生成的簇中心向量列表,对数据对象集合进行划分其主要的MapReduce编程模型包括了Map、Combine和Reduce三个阶段。
Map阶段
输入依然是各个数据块集合,输入格式为<key1,value1〉形式Map函数的逻辑就是将本节点上的数据对象划到离其最近的簇向量中去,输出格式也是<key2,value2>
Combine阶段
Combine函数用于合并Map结果中相同的key2的键值对,输入是Map的输出m<key2,value2〉,输出依然是键值对可以表示为<lcey3,value3>,key3依然还是簇类向量标识符,value3为相同key3的所有向量组合和这些向量的数目。
Reduce阶段
处理属于同一簇的所有数据对象向量,并重新生成新的簇类中心向量,其输入输出均是键值对形式,输入信息是各个子节点的combine结果,输出信息是簇类标识符和新的簇类中<key4,value4>
1
2
3
课题的背景
基于Hadoop平台的Canopy-Kmeans并行算法
课题总结
Cloud Computing
4
实验与结果分析
Cloud Computing
实验平台的搭建
由于实验条件有限,本实验平台集群共4台计算机,搭建4个节点,服务器的配置如下表所示:
实验环境 实验配置
硬 盘 120GB
内 存 2GB
操作系统 Xp/
Hadoop
服务器的网络配置如下
主机名 IP地址
Master
Slave1
Slave2
Slave3
操作系统:CentOS 6
JDK 版本:
Hadoop版本:
Mahout版本:
Cloud Computing
软件环境
搭建Hadoop集群,Hadoop部署情况:
HDFS MapReduce IP地址
NameNode JobTracker
DataNode TaskTracker
DataNode TaskTracker
DataNode TaskTracker
Cloud Computing
启动集群和Mahout
Web UI查看集群是否启动成功,在Master节点上启动Firefox浏览器,在浏览器地址栏输入http://master:50070/,检查namenode和datanode是否启动正常。:
当Hadoop平台正常启动后,然后启动Mahout
Cl