Hadoop实战之四~hadoop作业调度详解(2)

2024-08-27 12:59:29 原文

这篇文章将接着上一篇wordcount的例子，抽象出最简单的过程，一探MapReduce的运算过程中，其系统调度到底是如何运作的。

情况一：数据和运算分开的情况

　　wordcount这个例子的是hadoop的helloworld程序，作用就是统计每个单词出现的次数而已。其过程是：

现在我用文字再来描述下这个过程。

1　　Client提交一个作业，将Mapreduce程序和数据到HDFS中

2　　发起作业，Hadoop根据各机器空闲情况，调度一台（或者N台taskTracker机器，进行Map运算）

3　　taskTacker机器将程序和数据拷贝到自己机器上。

4　　taskTacker机器启动jvm，进行Map运算

5　　taskTacker机器运算完成，将数据存储在本机上，并通知JobTacker节点。

6　　JobTacker等待所有机器完成，调度一台空闲的机器，进行Reduce运算，并告知数据存储所在机器。

7　　进行Reduce运算的TaskTacker将数据通过RPC拷贝到自己机器上，同时将程序从HDFS中拷贝到自己机器中。

8　　启动JVM，加载程序，进行Reduce运算。

9 　运算完成，reduce运算的机器将数据存储在HDFS中，并通知JobTacker。

10　JobTacker发现任务完成，通知客户端，你的事干完了。

11 客户端通过访问HDFS，拿到最终运算数据。

为什么Map中间数据会存储本机上而不是HDFS上呢，原因是因为中间的运算可能会失败，如果失败了也没有必要存储在HDFS上，JobTacker会选择另外一台机器完成任务即可。只有最终数据才是有价值的。

情况二：数据和节点在一起的情况

真实的情况当然不是情况一，原因是因为： 移动运算比移动数据更经济. 在Hadoop中，往往同一台机器既是DataNode，也是TaskTraker。Hadoop在调度过程中，会优先调度数据所在的机器进行运算，这样数据就不会在机器之间Copy来Copy去，网络带宽就不会成为运算的瓶颈了。这个例子的示意图如下：

这张图结合上面的描述，我相信大家应该很容易就看懂了。那既然Hadoop的实际过程是情况二，我为什么要先描述情况一呢？原因有两点：

1　　情况一更容易理解。

2　　情况一更容易实现。

如何根据Hadoop的调度原理，写自己的的集群调度框架，这是我最近在思索和践行的一个事情，有兴趣的同学其实也可以自己写一个，大家多多交流~

Hadoop实战之四~hadoop作业调度详解(2)的更多相关文章

Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ Ap ...
Hadoop 发行版本 Hortonworks 安装详解（一）准备工作
一.前言目前Hadoop发行版非常多,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并 ...
Hadoop 发行版本 Hortonworks 安装详解（二）安装Ambari
一.通过yum安装ambari-server 由于上一步我们搭建了本地源,实际上yum是通过本地源安装的ambari-server,虽然也可以直接通过官方源在线安装,不过体积巨大比较费时. 这里我选择 ...
Hadoop生态圈-Hbase的Region详解
Hadoop生态圈-Hbase的Region详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
[转]Hadoop集群_WordCount运行详解--MapReduce编程模型
Hadoop集群_WordCount运行详解--MapReduce编程模型下面这篇文章写得非常好,有利于初学mapreduce的入门 http://www.nosqldb.cn/1369099810 ...
Hadoop深入学习：MapTask详解
转自:http://flyingdutchman.iteye.com/blog/1878775#bc2337280 Hadoop深入学习:MapTask详解博客分类: Hadoop MapTask执 ...
hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍简介我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来 ...
Java NIO 的前生今世之四 NIO Selector 详解
Selector Selector 允许一个单一的线程来操作多个 Channel. 如果我们的应用程序中使用了多个 Channel, 那么使用 Selector 很方便的实现这样的目的, 但是因为在一 ...
Linq实战之 DataSet操作详解
Linq实战之 DataSet操作详解一:linq to Ado.Net 1. linq为什么要扩展ado.net,原因在于给既有代码增加福利.FCL中在ado.net上扩展了一些方法. 简单一 ...

随机推荐

得到windows聚焦图片（windows 10）
有些Windows聚焦图片确实很漂亮,很希望保留下来,但是Windows聚焦图片总更好,网上有得到聚焦图片的方法,每次都手动去弄真麻烦,于是自己编了一个小程序,自动得到Windows聚焦图片,下面是运 ...
Python操作配置文件configparser模块
在实际的开发过程中,我们常有操作ini格式和conf格式配置文件的操作,Python为我们提供了configparser模块,方便我们对配置文件进行读写操作. config.ini配置文件内容如下: ...
“全栈2019”Java第四十六章：继承与字段
难度初级学习时间 10分钟适合人群零基础开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
zTree API中刷新树没效果
想刷新树,但是根据API来的refresh无效 ---------------------------------------------------------------------------- ...
Shell中反引号和$()的区别
Shell中可以用来实现变量代换的命令有两种,一种是由反引号括起来的一条命令另一种是由$()括起来一条命令,shell先执行这条命令,然后见输出结果立刻代换到当前命令行中. 例如定义一个变量存放dat ...
Squid代理服务器（四）——反向代理
一.概念反向代理主要实现的是我们内部网站的加速功能 ,许多大型的门户网站架构中都采用了反向代理加速,使用比较多的是nginx.squid等,通过squid反向代理加速网站的访问速度,可将不同的url ...
Python——深拷贝和浅拷贝
深拷贝.浅拷贝 1. 浅拷贝浅拷贝是对于一个对象的顶层拷贝 import copy a = [[1, 2], 3] b = copy.copy(a) print(id(a)) print(id(b) ...
IDEA通过Maven WebApp archetype 创建Spring boot项目骨架
springboot项目资源: GitHub地址:https://github.com/TisFreedom/springbootdome.git 码云地址:https://gitee.com/Tis ...
记录：CentOS 7 安装配置分布式文件系统 FastDFS 5.1.1
CentOS 7 安装配置分布式文件系统 FastDFS 5.1.1 软件下载:http://download.csdn.net/download/qingchunwuxian1993/9897458 ...
python 全栈开发：python基础
python具有优美.清晰.简单,是一个优秀并广泛使用的语言.诞生于1991年2.python历史 1989年,为了打发圣诞节假期,Guido开始写Python语言的编译器.Python这个名字,来自 ...