1 / 35
文档名称:

hadoop源码分析.pptx

格式:pptx   大小:2,395KB   页数:35页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

hadoop源码分析.pptx

上传人:1009482357 2018/9/10 文件大小:2.34 MB

下载得到文件列表

hadoop源码分析.pptx

相关文档

文档介绍

文档介绍:Hadoop源码分析小组成员及分工********** 石浩东 Hadoop架构分析********** 张一天 Map/Reduce********** 黄世炜 HDFS********** 贺钊 Master/Slaver********** 张黎博 JobTracker********** 贾志伟 TaskTracker********** 曹建 Client********** 陶成 I/OandIPC********** 殷照轩 Hadoop部署及实现Hadoop架构Map/Reduce**********张一天MapReduce简介MapReduce是一种数据处理编程模型多语言支持:MapReduce可以使用各种语言编写,例如Java、Ruby、Python、C++。并行本质:MapReduce本质上可以并行运行的MapReduce数据模型解析MapReduce数据模型: 两个阶段:MapReduce的任务可以分为两个阶段,Map阶段和Reduce阶段。输入输出:每个阶段都使用键值对作为输入和输出,IO类型可以由程序员进行选择。两个函数:map函数和reduce函数。Map数据流分片对应任务:每个分片都对应着一个Map任务,即MapReduce中的map函数。并行处理:每个分片执行Map任务要比一次性处理所有数据时间要短。负载均衡:集群中的计算机有的性能好有的性能差,按照性能合理的分配分片大小,比平均分配效率要高,充分发挥出集群的效率。 合理分片:分片越小负载均衡效率越高,但是管理分片和管理map任务总时间会增加,需要确定一个合理的分片大小,一般默认为64M,与块大小相同。Reduce数据流无本地化优势:Reduce的任务的输入是Map任务的输出,reduce任务的绝大多数数据本地是没有的。数据合并:map任务输出的结果,会通过网络传到reduce任务节点上,先进行数据的合并,然后在输入到reduce任务中进行处理。结果输出:reduce的输出直接输出到HDFS中。reduce数量:reduce数量是特别指定的,在配置文件中指定。HDFS**********黄世炜