MapReduce是Hadoop2.x的一个计算框架，利用分治的思想，将一个计算量很大的作业分给很多个任务，每个任务完成其中的一小部分，然后再将结果合并到一起。将任务分开处理的过程为map阶段，将每个小任务的结果合并到一起的过程为reduce阶段。下面先从宏观上介绍一下客户端提交一个作业时，Hadoop2.x各个组件之间的联系及处理流程。然后我们再具体看看MapReduce计算框架在执行一个作业时，做了些什么。

YARN

YARN是Hadoop2.x框架下的资源管理系统，其组成部分为：

1）全局资源管理器（global resource manager）：整个系统的资源管理和调配。

2）节点管理器（node manager）（每个节点都有一个）负责任务的启动、配置及其资源的监控

3）针对每个应用程序的应用程序管理器（application-specific application master）（因为Hadoop2.x支持的计算框架有很多，不只是MapReduce，还有像storm、spark、Tez不同处理机制的计算框架，所以MapReduce是一种应用程序，每个MapReduce作业是MapReduce类型程序的一个实例）

4）调度器（scheduler）（在资源管理器里）

5）容器（container）：一部分CPU和内存组成一个容器，最为资源使用，一个应用程序运行在一组容器中。

在了解了各个组件的功能之后，借助下图，我们看一下提交一个作业的流程：

1）客户端向资源管理器提交作业程序，作业程序的类型决定了使用哪种应用程序管理器（MapReduce、storm、Tez...）

2）资源管理器协调资源，在一个节点上获取一个运行应用程序管理器实例的容器

3）应用程序管理器（application master）在资源管理器中注册

4）应用程序管理器通过资源请求与资源管理器协商资源，包括该容器所在的节点和该容器的详细说明（CPU核数量和内存大小）

5）和 6）应用程序管理器在一个节点上或者多个节点上运行其Map Task和Reduce Task

7）在容器中运行的应用程序向应用程序管理器汇报执行度

8）应用程序执行完毕，应用程序管理器就会从资源管理器中取消注册，作业占用的资源会释放到系统中

MapReduce计算框架

MapReduce总的可以分为map阶段、shuffle阶段和reduce阶段。

map阶段

1）从HDFS中将输入值传输到Mapper节点

除了传输之外，在读取过程中，还需要做一个转换过程，将数据转换为键值对的形式（MapReduce处理的输入必须为键值对的形式），这个过程通过InputFormat完成（默认为TextInputFormat）

2）Mapper

根据自己写的Mapper函数对文件进行处理，同样输出的是键值对（如wordcount中统计收到的数据中每个词出现的次数）

3）Partitioner

Patitioner根据Reducer的数量和自定义的划分方法（没有自定义的话，Hadoop有默认实现）去划分Mapper的输出；划分的结果会按照Mapper输出的键进行排序。

4）Combiner（这一步是可选的）

经过Partitioner排序后，如果作业中配置了Combiner，就会调用Combiner，Combiner就好像在Mapper端提前进行一下Reducer一样。

那为什么要提前进行呢？这是为了尽量减少对网络带宽的需求，比如经典的wordcount程序，在Mapper端处理之后，我们可能得到一个像key = apple，value = {1,1,1,1,1,1}的结果，如果我们能先对其进行一下Combiner，那么就能得到key = apple，value = 6的结果，传输这样的数据，肯定是要比key = apple，value = {1,1,1,1,1,1}的数据节省带宽的。

那既然能够节省传输带宽，为什么又是可选的呢？何不每次都默认执行Combiner？这是因为并不是每一个Mapper都能进行Combiner；比如现在我们的任务要统计一段时间内的每天的最高气温，假设开始有两个Mapper，输出为（0，10，20）和（15，25），那么提前进行Combiner可以使得传递给Reducer端的数据为（20， 25）这样最后的结果还是为25，且传输的数据量变小；但是假如我们要求一段时间内的平均温度呢？如果开始就在Mapper端进行Combiner求平均温度，那么Reducer端得到的数据为（10, 20），算出的平均温度为15，但是实际上的平均温度为（0， 10， 20 ， 15 ，25）的平均，为14；所以需要搞清楚Combiner合适不合适提前进行。

shuffle阶段

shuffle阶段要做的事就是保证Mapper输出的数据传输到合适的Reducer进行处理，如下图所示：

shuffle阶段，每个Reducer都会使用HTTP协议从Mapper节点获得自己的划分（Reducer通过Application Master来获取自己应该查询哪些Mapper节点来获取自己划分的信息，因为每个Mapper实例完成后，会通知Application Master运行阶段产生的划分）

reduce阶段

1）Reducer

根据自己写的reduce程序对数据进行处理（如wordcount中将每个单词出现的次数加起来得到总和）

2）将处理结果输出到HDFS

通过OutputFormat完成（默认是TextOutputFormat）

总结

通过对Hadoop2.x框架的处理流程和MapReduce计算框架的处理流程的梳理，可以在进行程序编写时有一个更清楚的认识，下一步应该具体做些什么。

参考：《Hadoop权威指南》

　　　　《Hadoop技术内幕》

MapReduce处理流程的更多相关文章

MapReduce基本流程与设计思想初步
1.MapReduce是什么? MapReduce是一种编程模型,用于大规模数据集的并行运算.它借用了函数式的编程概念,是Google发明的一种数据处理模型. 主要思想为:Map(映射)和Reduce ...
MapReduce工作流程及Shuffle原理概述
引言: 虽然MapReduce计算框架简化了分布式程序设计,将所有的并行程序均需要关注的设计细节抽象成公共模块并交由系统实现,用户只需关注自己的应用程序的逻辑实现,提高了开发效率,但是开发如果对Map ...
mapreduce执行流程
角色描述:JobClient:执行任务的客户端JobTracker:任务调度器TaskTracker:任务跟踪器Task:具体的任务(Map OR Reduce) 从生命周期的角度来看,mapredu ...
MapReduce运行流程分析
研究MapReduce已经有一段时间了.起初是从分析WordCount程序开始,后来开始阅读Hadoop源码,自认为已经看清MapReduce的运行流程.现在把自己的理解贴出来,与大家分享,欢迎纠错. ...
MapReduce执行流程及程序编写
MapReduce 一种分布式计算模型,解决海量数据的计算问题,MapReduce将计算过程抽象成两个函数 Map(映射):对一些独立元素(拆分后的小块)组成的列表的每一个元素进行指定的操作,可以高度 ...
辅助排序和Mapreduce整体流程
一.辅助排序需求:先有一个订单数据文件,包含了订单id.商品id.商品价格,要求将订单id正序,商品价格倒序,且生成结果文件个数为订单id的数量,每个结果文件中只要一条该订单最贵商品的数据. 思路: ...
Hadoop Mapreduce运行流程
Mapreduce的运算过程为两个阶段: 第一个阶段的map task相互独立,完全并行: 第二个阶段的reduce task也是相互独立,但依赖于上一阶段所有map task并发实例的输出: 这些t ...
016_笼统概述MapReduce执行流程结合wordcount程序
数据传输<key,value> File--> <key,value> -->map(key,value) --> mapResult<k ...
2.25-2.26 MapReduce执行流程Shuffle讲解
原文链接:https://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce, Shuffle是 ...

随机推荐

FineUIMvc随笔（4）自定义回发参数与自定义回发
声明:FineUIMvc(基础版)是免费软件,本系列文章适用于基础版. 不能忘却的回发在上一篇文章中,我们对FineUIMvc中的回发进行了详细描述,目的是为了告诉大家: 1. FineUIMvc中 ...
移动端click事件延迟300ms到底是怎么回事，该如何解决？
不管在移动端还是PC端,我们都需要处理用户点击,这个最常用的事件.但在touch端click事件响应速度会比较慢,在较老的手机设备上会更为明显(300ms的延迟). 问题由来这要追溯至 2007 年 ...
徒手用Java来写个Web服务器和框架吧<第二章:Request和Response>
徒手用Java来写个Web服务器和框架吧<第一章:NIO篇> 接上一篇,说到接受了请求,接下来就是解析请求构建Request对象,以及创建Response对象返回. 多有纰漏还请指出.省略 ...
设置debian的静态IP
欲设置的信息: IP地址:198.9.146.131 子网掩码:255.255.255.0 网关:198.9.146.254 DNS:198.9.9.1 198.9.9.2 首先编辑/etc/netw ...
Pascal's Triangle leetcode
Given numRows, generate the first numRows of Pascal's triangle. For example, given numRows = 5,Retur ...
聊聊"jQuery is not defined"
KiwenLau同学在他的个人博客使用了Fundebug的JavaScript错误监控插件,然后偶尔会收到jQuery is not defined这样的错误报警: 他的博客使用了Staticfile ...
TypeScript设计模式之组合、享元
看看用TypeScript怎样实现常见的设计模式,顺便复习一下. 学模式最重要的不是记UML,而是知道什么模式可以解决什么样的问题,在做项目时碰到问题可以想到用哪个模式可以解决,UML忘了可以查,思想 ...
Jmeter 正则提取器
背景: 用户购买商品,为防止CSRF攻击,在购买请求参数中要携带token参数,token的值是随机加密处理的,每次登录值都会刷新场景: 用户登录站点,访问商品列表,购买商品脚本设计: 1.登录 ...
JAVA基础知识（2）--堆栈和递归的操作
2015-07-26 18:16:21/***该应用程序对堆栈和递归方法进行实例操作: *1.堆栈操作:先进后出,*2.递归方法:直接或者调用自己的方法:*@author lhm *Email:912 ...
樱花的季节，教大家用canvas画出飞舞的樱花树
又到了樱花的季节,教大家使用canvas画出飞舞的樱花树效果. 废话少说,先看效果. 演示效果地址:http://suohb.com/work/tree4.htm 查看演示效果第一步,我们先画出一棵 ...

MapReduce处理流程