1 / 47
文档名称:

大数据技术原理与操作应用-第4章 MapReduce 分布式计算系统.ppt

格式:ppt   大小:2,747KB   页数:47页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文档介绍:第4章 MapReduce 分布式计算系统
*
MapReduce 运行模式
MapReduce 运行流程
MapReduce 编程案例分析
使用 MapReduce 实现反向索引
MapReduce 基本思想
MapReduce 处理流程
MapReduce 编程模型

*
✎ 学习目标
理解
掌握
掌握
掌握
理解 MapReduce 的核心思想

1

2
掌握 MapReduce 的编程模型

4
掌握 MapReduce 常见编程组件的使用


3
掌握 MapReduce 的工作原理


本章将对 MapReduce 进行系统的介绍,让读者对 MapReduce 有一个全面的认识。
章节概要
Hadoop MapReduce 是一个面向大规模数据集的简单易用的并行计算模型,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

4. 1 MapReduce 介绍

4. 1. 1 MapReduce 基本思想
MapReduce 是 Google 提出的大规模并行计算框架,应用于大规模廉价集群上的大数据并行处理。 MapReduce 采用“ 分而治之” 的设计思想,将输入的大量数据( 这些数据之间不存在或有较少的依赖关系) 采用一定的划分方法进行分片,然后将一个数据分片交由一个任务去处理,这些任务并行计算,最后再汇总所有任务的处理结果。
MapReduce 将大数据计算任务划分成多个子任务,然后由各个分节点并行计算,最后通过整合各个节点的中间结果,将各个子任务的结果进行合并,得到最终结果。
MapReduce 借助函数式编程设计思想,将大数据处理过程主要拆分为 Map(映射)和 Reduce(归约)两个模块。Map(映射)用来将输入的大量键值对映射成新的键值对,Reduce(归约)负责收集整理Map操作生成的中间结果,并进行输出。

4. 1 MapReduce 介绍

4. 1. 1 MapReduce 基本思想
MapReduce 是一个并行计算与运行软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,为程序员隐藏系统底层细节。这样程序员就不需要考虑数据的存储、划分、分发、结果收集和错误恢复等诸多细节问题,这些问题都交由系统自行处理,大大减少了软件开发人员的负担。

4. 1 MapReduce 介绍

4. 1. 2 MapReduce 处理流程
MapReduce 是一种并行编程模型,将计算分为两个阶段:Map阶段和Reduce阶段。首先将输入数据划分成多个块,由多个Map任务并行计算。MapReduce对 Map任务的结果进行聚集和混洗,然后提供给Reduce任务作为其输入数据集。 最终通过合并Reduce任务的输出得到最终结果。MapReduce数据处理流程如图4.1所示。
图4.1 MapReduce 数据处理流程

4. 1 MapReduce 介绍

4. 1. 1 MapReduce 基本思想
①从存储系统中读取输入文件内容,存储系统可以是本地文件系统或者HDFS 文件系统等。对输入文件的每一行解析成一个<key,value> 对,在默认情况下,key表示行偏移量,value表示这行的内容。
②每一个<key,value>对调用一次map函数。程序员需要根据实际的业务需要重写map()方法,对输入的 <key,value> 对进行处理,转换为新的<key,value>对输出。
(1) Map 任务处理

4. 1 MapReduce 介绍

4. 1. 1 MapReduce 基本思想
①对Map输出的<key,value>对进行分区,并将结果通过网络复制到不同的Reducer节点上。
②将不同分区的数据按照key进行排序,相同key的value放到一个集合中,形成新的键值对,即<key,list(value)> 对,记为<key,VALUE> 。
(2) Shuffle 与 Sort

4. 1 MapReduce 介绍

4. 1. 1 MapReduce 基本思想
①调用Reduce函数处理前面得到的每一个<key,VALUE> 。程序员需要根据实际的业务需要重写reduce()方法。
②将Reduce函数的输出保存到文件系统中。
(3) Reduce 任务处理

4. 2 MapReduce 运行机制

4.2. 1 MapReduce 编程模型简介
一个MapReduce作业通常将输入的数据集拆分成多个独立的块,这些块被 Map任务以并行的方式进行计

点击展开更多

分享好友

预览全文

大数据技术原理与操作应用-第4章 MapReduce 分布式计算系统.ppt

上传人:Q+1243595614 2021/1/21 文件大小:2.68 MB

下载得到文件列表

大数据技术原理与操作应用-第4章 MapReduce 分布式计算系统.ppt

相关文档