文档名称：

硕士研究生论文答辩ppt.ppt

格式：ppt 大小：2,362KB 页数：31页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

硕士研究生论文答辩ppt.ppt

上传人:薄荷牛奶 2022/4/22 文件大小：2.31 MB

下载得到文件列表

硕士研究生论文答辩ppt.ppt

相关文档

文档介绍

文档介绍：硕士研究生论文答辩PPT
1
2
3
课题的背景
基于Hadoop平台的Canopy-Kmeans并行算法
课题总结
Cloud Computing
4
实验与结果分析
相关概念
Cloud Computi算法,第二阶段执行Kmeans算法。
第一阶段Canopy算法的MapReduce实现
实现Canopy算法包括三个MR，即三个Job，可以描述为下面2个步骤：
（1）Job1：将输入数据处理为Canopy算法可以使用的输入格式。
（2）Job2：每个Mapper针对自己的输入执行Canopy聚类，输出每个Canopy的中心向量。
（3）Job2:每个Reducer接收Mapper的中心向量，并加以整合以计算最后的Canopy的中心向量。
（4）Job3：根据Job2的中心向量来对原始数据进行分类。
Cloud Computing
第二阶段Kmeans算法的MapReduce实现
Kmeans算法利用上一阶段的生成的簇中心向量列表，对数据对象集合进行划分其主要的MapReduce编程模型包括了Map、Combine和Reduce三个阶段。
Map阶段
输入依然是各个数据块集合，输入格式为<key1,value1〉形式Map函数的逻辑就是将本节点上的数据对象划到离其最近的簇向量中去，输出格式也是<key2,value2>
Combine阶段
Combine函数用于合并Map结果中相同的key2的键值对，输入是Map的输出m<key2,value2〉，输出依然是键值对可以表示为<lcey3,value3>，key3依然还是簇类向量标识符，value3为相同key3的所有向量组合和这些向量的数目。
Reduce阶段
处理属于同一簇的所有数据对象向量，并重新生成新的簇类中心向量，其输入输出均是键值对形式，输入信息是各个子节点的combine结果，输出信息是簇类标识符和新的簇类中<key4,value4>
1
2
3
课题的背景
基于Hadoop平台的Canopy-Kmeans并行算法
课题总结
Cloud Computing
4
实验与结果分析
Cloud Computing
实验平台的搭建
由于实验条件有限，本实验平台集群共4台计算机，搭建4个节点，服务器的配置如下表所示：
实验环境实验配置
硬盘 120GB
内存 2GB
操作系统 Xp/
Hadoop
服务器的网络配置如下
主机名 IP地址
Master
Slave1
Slave2
Slave3
操作系统：CentOS 6
JDK 版本：
Hadoop版本：
Mahout版本：
Cloud Computing
软件环境
搭建Hadoop集群，Hadoop部署情况：
HDFS MapReduce IP地址
NameNode JobTracker
DataNode TaskTracker
DataNode TaskTracker
DataNode TaskTracker
Cloud Computing
启动集群和Mahout
Web UI查看集群是否启动成功，在Master节点上启动Firefox浏览器，在浏览器地址栏输入http://master:50070/，检查namenode和datanode是否启动正常。：
当Hadoop平台正常启动后，然后启动Mahout
Cl