1 / 11
文档名称:

hadoop中mapreduce部分执行流程.doc

格式:doc   页数:11页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

hadoop中mapreduce部分执行流程.doc

上传人:wc69885 2016/7/31 文件大小:0 KB

下载得到文件列表

hadoop中mapreduce部分执行流程.doc

文档介绍

文档介绍:Hadoop 包括 hdfs 与 mapreduce 两部分,在试用期期间我主要看了 mapreduce 部分, 即 hadoop 执行作业的部分。 1. mapreduce 中几个主要的概念 mapreduce 整体上可以分为这么几条执行的线索, jobclient , JobTracker 与 TaskTracker 。 1. JobClient 每一个 job 都会在用户端通过 JobClient 类将应用程序以及配置参数打包成 jar 文件存储在 HDFS ,并把路径提交到 JobTracker ,然后由 JobTracker 创建每一个 Task (即 MapTask 和 ReduceTask )并将它们分发到各个 TaskTracker 服务中去执行。 2. JobTracker JobTracker 是一个 master 服务,软件启动之后 JobTracker 接收 job ,负责调度 job 的每一个子任务 task 运行于 TaskTracker 上, 并监控它们, 如果发现有失败的 task 就重新运行它。一般情况应该把 JobTracker 部署在单独的机器上。 3. TaskTracker TaskTracker 是运行于多个节点上的 slaver 服务。 TaskTracker 主动与 JobTracker 通信, 接收作业, 并负责直接执行每一个任务。 TaskTracker 都需要运行在 HDF S 的 DataNode 上, 下图简单的描述了三者之间的关系: 暂无 2. 数据结构 JobInProgress JobClient 提交 job 后, JobTracker 会创建一个 JobInProgress 来跟踪和调度这个 job , 并把它添加到 job 队列里。 JobInProgress 会根据提交的 job jar 中定义的输入数据集(已分解成 FileSplit ) 创建对应的一批 TaskInProgress 用于监控和调度 MapTask , 同时在创建指定数目的 TaskInProgress 用于监控和调度 ReduceTask ,缺省为 1个 ReduceTask 。 TaskInProgress JobTracke r 启动任务时通过每一个 TaskInProgres s来 launchTask , 这时会把 Tas k 对象(即 MapTask 和 ReduceTask ) 序列化写入相应的 TaskTracker 服务中, TaskTracker 收到后会创建对应的 TaskInProgress (此 TaskInProgress 实现非 JobTracker 中使用的 TaskInProgress ,作用类似)用于监控和调度该 Task 。启动具体的 Task 进程是通过 TaskInProgress 管理的 TaskRunner 对象来运行的。 TaskRunner 会自动装载 job jar ,并设置好环境变量后启动一个独立的 java child 进程来执行 Task ,即 MapTask 或者 ReduceTask ,但它们不一定运行在同一个 TaskTracker 中。 MapTask 和 ReduceTask 一个完整的 job 会自动依次执行 Mapper 、 Combiner (在 JobConf biner 时执行) 和 Reducer ,其中 Mappe bine r是由 MapTas k 调用执行, Reduce r则由 ReduceTas k 调用, Combiner 实际也是 Reducer 接口类的实现。 Mapper 会根据 job jar 中定义的输入数据集按<key1,value1> 对读入,处理完成生成临时的<key2,value2> 对,如果定义 biner , MapTask 会在 Mapper biner 将相同 key 的值做合并处理,以减少输出结果集。 MapTask 的任务全完成即交给 ReduceTask 进程调用 Reducer 处理, 生成最终结果<key3,value3> 对。 3. 整体流程一道 MapRedcu e 作业是通过 (job) 向 maste r 节点的 JobTracke r 提交的, JobTracke r接到 JobClien t 的请求后把其加入作业队列中。 JobTracke r 一直在等待 JobClien t 通过 RPC 提交作业,而 TaskTracker 一直通过 RPC 向 JobTracker 发送心跳 heartbeat 询问有没有任务可做,如果有,让其派发任务给它执行。如果 JobTracker 的作业队列不为空

最近更新

2024年广西藤县事业单位招聘59人历年高频难、.. 90页

2024年成都职业技术学院单招职业适应性测试题.. 57页

2024年株洲师范高等专科学校单招职业适应性测.. 58页

2024年江苏省无锡市行政职业能力测验题库含答.. 146页

2024年江苏省苏州市行政职业能力测验题库(综.. 148页

2024年江西机电职业技术学院单招职业适应性测.. 58页

2024年江西省吉安市行政职业能力测验题库附答.. 147页

2024年江西省萍乡市行政职业能力测验题库及一.. 148页

2024年河北化工医药职业技术学院单招职业适应.. 58页

2024年河南艺术职业学院单招职业适应性测试题.. 58页

2024年浙江省台州市行政职业能力测验题库ab卷.. 149页

2024年浙江省温州市行政职业能力测验题库有答.. 146页

2024年滁州职业技术学院单招职业适应性测试题.. 59页

2024年福建省宁德市行政职业能力测验题库完整.. 149页

2024年辽宁省大连市行政职业能力测验题库完整.. 149页

2024年辽宁省本溪市选调生考试(公共基础知识.. 148页

年月日第一课时教案设计 6页

2024年辽宁省阜新市选调生考试(公共基础知识.. 148页

2024年郑州理工职业学院单招职业适应性测试题.. 57页

2024年铁岭卫生职业学院单招职业适应性测试题.. 58页

2024年驻马店幼儿师范高等专科学校单招职业适.. 56页

2024年黑龙江省伊春市行政职业能力测验题库含.. 148页

2024年黑龙江省大庆市行政职业能力测验题库(.. 148页

2024年黑龙江省鹤岗市行政职业能力测验题库(.. 145页

公共基础知识吉林省白山市选调生考试(行政职.. 148页

XX学校在铸牢中华民族共同体意识教育工作情况.. 5页

学校领导班子考核谈话记录 3页

信访案件评查程序 10页

最新TSG-D0001-2022压力管道安全技术监察规程.. 43页

建筑企业经营管理(精) 7页