第九篇：Map/Reduce 工作机制分析 - 作业的执行流程

穆晨 2024-10-09 15:54:59 原文

前言

从运行我们的 Map/Reduce 程序，到结果的提交，Hadoop 平台其实做了很多事情。

那么 Hadoop 平台到底做了什么事情，让 Map/Reduce 程序可以如此 "轻易" 地实现分布式运行？

Map/Reduce 任务执行总流程

经过之前的学习，我们已经知道一个 Map/Reduce 作业的总流程为：

代码编写 --> 作业配置 --> 作业提交 --> Map任务的分配和执行 --> 处理中间结果(Shuffle) --> Reduce任务的分配和执行 --> 作业完成

如下图所示：

　　

Map/Reduce 框架中的四大实体

1. 客户端

负责编写代码，配置作业，提交作业。任何节点都可以充当客户端。

2. JobTracker (1个)

作业中心控制节点，一般一个集群就一个JobTracker。

　　3. TaskTracker (很多个)

作业具体执行节点，可以分为Map节点和Reduce节点两大类。

4. HDFS

分布式文件系统，保存从作业提交到完成需要的各种信息。

阶段一：提交作业阶段

1. 首先，开发人员编写好程序代码，配置好输入输出路径，Key/Value 类型等等。(这部分是人为控制阶段，接下来的所有操作都是Hadoop完成的了)

2. 从JobTracker处获取当前的作业ID号

3. 检查配置合法性 (如输入目录是否存在等)

4. 计算作业的输入划分，并将划分信息写入到Job.split文件。

5. 将运行作业需要的所有资源都复制到HDFS上。

6. 通知JobTracker准备完毕，可以执行作业了。

阶段二：初始化作业阶段

这个阶段，JobTracker将为作业创建一个对象，专门监控它的运行。

并根据Job.split文件(上一步生成)来创建并初始化Map任务和Reduce任务。

阶段三：分配任务

JobTracker和TaskTracker之间通信和任务分配是通过心跳机制来完成的，每个TaskTracker作为一个单独的JVM执行一个简单的循环。

TaskTracker每隔一段时间都会向JobTracker汇报它的任务进展报告，JobTracker在收到进展报告以后如果发现任务完成了，就会给它再分配新的任务。

一般来说TaskTracker有个任务槽，它是有容量限制的 - 只能装载一定个数的Map/Reduce任务。

这一步和下一步，就形成一次心跳。

阶段四：执行任务

这一步的主体是TaskTracker，主要任务是实现任务的本地化。

具体步骤如下：

1. 将job.split复制到本地

2. 将job.jar复制到本地

3. 将job的配置信息写入到job.xml

4. 创建本地任务目录，解压job.jar

5. 发布任务并在新的JVM里执行此任务。

6. 最后将计算结果保存到本地缓存

小结

本文细致分析了Map/Reduce的作业执行流程。

但在流程的执行过程当中，数据的具体流动途径也是需要仔细分析的 - 是存放在本地磁盘，还是HDFS？

另外，还需要做好错误处理 - 比如说某个节点坏了怎么办？

这些将在后面的两篇文章中做出分析和介绍。

第九篇：Map/Reduce 工作机制分析 - 作业的执行流程的更多相关文章

Map/Reduce 工作机制分析 --- 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
第十篇：Map/Reduce 工作机制分析 - 数据的流向分析
前言在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议. 接下来,数据被会被送往一个个Map节点中去,这也无异议. 下面问题来了:数据在被Map节点处理完后,再何去何从呢? ...
Map/Reduce 工作机制分析 --- 数据的流向分析
前言在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议. 接下来,数据被会被送往一个个Map节点中去,这也无异议. 下面问题来了:数据在被Map节点处理完后,再何去何从呢? ...
第十一篇：Map/Reduce 工作机制分析 - 错误处理机制
前言对于Hadoop集群来说,节点损坏是非常常见的现象. 而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行. 下面就来分析Hadoop平台是如何做到的. 硬件故障硬件 ...
Map/Reduce 工作机制分析 --- 错误处理机制
前言对于Hadoop集群来说,节点损坏是非常常见的现象. 而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行. 下面就来分析Hadoop平台是如何做到的. 硬件故障硬件 ...
MapReduce作业的执行流程
MapReduce任务执行总流程一个MapReduce作业的执行流程是:代码编写 -> 作业配置 -> 作业提交 -> Map任务的分配和执行 -> 处理中间结果 -> ...
Yii2 源码分析入口文件执行流程
Yii2 源码分析入口文件执行流程 1. 入口文件:web/index.php,第12行.(new yii\web\Application($config)->run()) 入口文件主要做4 ...
MapReduce启动的Map/Reduce子任务简要分析
对于Hadoop来说,是通过在DataNode中启动Map/Reduce java进程的方式来实现分布式计算处理的,那么就从源码层简要分析一下hadoop中启动Map/Reduce任务的过程. ...
Java IO工作机制分析
Java的IO类都在java.io包下,这些类大致可分为以下4种: 基于字节操作的 I/O 接口:InputStream 和 OutputStream 基于字符操作的 I/O 接口:Writer 和 ...

随机推荐

virtualbox命令行共享CentOS目录
virtualbox命令行共享CentOS目录 1. 安装virtualbox增强工具 "右ctrl+c" 显示和隐藏virtualbox虚拟机的菜单栏. 在VirtualBo ...
9、flask之SQLAlchemy
本篇导航: 介绍使用 SQLAlchemy-Utils 一. 介绍 SQLAlchemy是一个基于Python实现的ORM框架.该框架建立在 DB API之上,使用关系对象映射进行数据库操作,简言之 ...
Virtualbox以及VWare在Win10下的不兼容
异常处理汇总-开发工具 http://www.cnblogs.com/dunitian/p/4522988.html Hyper原因导致的,关闭即可禁用 hyper-vbcdedit /set h ...
关于c++栈溢出的问题
我自己定义了一个数据类型node,嵌套在另一个数据类型当中时候,用到了delete函数, 在我node的声明当中声明了几个指针在我的析构函数中却调用了delet函数结果程序结果是能跑出来提示我栈 ...
通过 Service 访问 Pod - 每天5分钟玩转 Docker 容器技术（136）
本节开始学习 Service.我们不应该期望 Kubernetes Pod 是健壮的,而是要假设 Pod 中的容器很可能因为各种原因发生故障而死掉.Deployment 等 controller 会通 ...
高性能JavaScript读书笔记
零.组织结构根据引言,作者将全书划分为四个部分: 一.页面加载js的最佳方式(开发前准备) 二.改善js代码的编程技巧(开发中) 三.构建与部署(发布) 四.发布后性能检测与问题追踪(线上问题优化) ...
uva12325 暴力枚举
这题刚开始我就贪心,直接wrong了,贪心适合可以取一个物体部分的题. 还是老实枚举吧,注意枚举要分类,不然可能会超时,还有注意答案是long long AC代码: #include<cstdi ...
RestTemplate 支持服务器内302重定向
Stack Overflow 里找到的代码,可以正常返回服务器302重定向后的响应 final RestTemplate restTemplate = new RestTemplate(); fina ...
个人觉得实用的Python姿势
以后会陆续补充偶然在Python Cookbook看到一个format操作,想到一个问题, 感觉用了!r之后,会把传入的对象按照原来形式保留 d = {"foo": " ...
nginx80端口被占用，启动失败。
mac自带的apache占用了80端口,导致nginx服务器不能启动.这个问题是怎么解决的,目前还是不清楚. apache占用端口,使用命令进行关闭: apachectl -k stop,然后重启 ...