1.概述

　　在接触了第一代MapReduce和第二代MapReduce之后，或许会有这样的疑惑，我们从一些书籍和博客当中获取MapReduce的一些原理和算法，在第一代当中会有JobTrack，TaskTrack之类的术语，在第二代会有ResourceManager，NodeManager，ApplicationMaster等等术语。然又有Shuffle、Partitioner、Sort、Combiner等关键字，如何区分它们，理顺其之间的联系。

　　在Hadoop2.x大行其道的年代，其优秀的资源管理框架（系统），高可用的分布式存储系统，备受企业青睐。然因上述之惑，往往不能尽得其中之深意。此篇博客笔者为大家一一解惑。

2.计算模型

　　在阅读和研究第一代MapReduce和第二代MapReduce之后，我们可以发现MapReduce其实由两部分组成，一者为其计算模型，二者为其运行环境。到这里，就不难解释为何在第一代MapReduce里面由Shuffle、Sort等内容，而在第二代MapReduce中也同样存在其相关内容。原因很简单，在Hadoop2.x中，MapReduce的变化，只有其运行环境变化了，然其计算模型依旧不变。

　　在MapReduce的计算模型当中，对方法进行了高阶抽象，其精华为Map Task和Reduce Task，在Map阶段完成对应的map函数的逻辑实现，与之相对的在Reduce阶段完成对应的reduce函数的逻辑实现，即可编写好整个核心的MapReduce的处理过程，在Main函数入口之处，申请对应的Job，指定相应的Mapper和Reducer继承类，以及其输入输出类型等相关信息，即可运行一个完整的MapReduce任务。

　　虽说我们能够编写一个完成MapReduce程序，并运行它。然其运行的细节，我们却未必清楚，往往初学者在编写一个MapReduce作业时，遇到错误而不去研究分析其错误之根本，转而求助于搜索引擎，在搜索无望之下，会让自己瞬间懵逼，不知所措。

　　这里，我们去剖析其计算模型的执行细节，虽不敢说剖析之后能解决所有的疑难杂症，但起码能让我们知晓错误原因，能够找到解决问题的方向，继而解决我们所遇之难题。下面为大家剖析MapReduce的计算模型。

　　Map阶段，简言之：

Read：该步骤是去读取我们的数据源，将数据进行filter成一个个的K/V
Map：在map函数中，处理解析的K/V，并产生新的K/V
Collect：输出结果，存于环形内缓冲区
Spill：内存区满，数据写到本地磁盘，并生产临时文件
Combine：合并临时文件，确保生产一个数据文件

　　Reduce阶段，简言之：

Shuffle：Copy阶段，Reduce Task到各个Map Task远程复制一分数据，针对某一份数据，若其大小超过一定阀值，则写磁盘；否则放到内存
Merge：合并内存和磁盘上的文件，防止内存占用过多或磁盘文件过多
Sort：Map Task阶段进行局部排序，Reduce Task阶段进行一次归并排序
Reduce：将数据给reduce函数
Write：reduce函数将其计算的结果写到HDFS上

　　上述为其计算模型的执行过程，需有几点要额外注意。这里有些阶段，我们在编写相关应用时，需有谨慎。

　　这里有一个Combine阶段，这个阶段的使用有助与我们对MapReduce的性能进行优化，为何这么说？细细剖析该过程便可明白。在map函数时，它只管处理数据，并不负责统计处理数据的结果，也就是说并没有Combine阶段，那么，问题来了，在reduce过程当中，因为每个map函数处理后的数据没有统计，它除了要统计所有map的汇总数量，还要统计单个map下的处理数。也许，这里有点绕，大家可以参照下图来理解这层意思，如下图所示：

　　然而，这样是不行的，所以Reduce为了减轻压力，每个map都必须统计自己旗下任务处理结果，即：Combine。这样，Reduce所做的事情就是统计每个map统计之后的结果，这样子就会轻松许多。因而，Combine在map所做的事情，减轻了Reduce的事情，省略了上图中的步骤1。

　　具体代码细节，可在Job的属性方法中设置对应的参数，如下所示：

job.setCombinerClass(DefReducer.class);

　　另外，我们也有必要理解Partition相关职责，它是分割map节点的结果，按照Key分别映射给不同的Reduce，这里我们可以理解为归类，对一些复杂的数据进行归类。在Job属性中设置对应的分区类，那么你的分区函数就生效了，如下所示：

job.setPartitionerClass(DefPartition.class);

3.运行环境

　　在Hadoop2.x中，由于有了YARN来做资源管理，因而第二代MapReduce的运行环境，对比第一代MapReduce有了些许的改变。具体改变细节，可参考我写的另一篇博客：《MapReduce运行环境剖析》。

4.总结

　　本篇博客给大家剖析了MapReduce的计算模型和运行环境，其中计算模型不变，变者乃其运行环境。所变内容，简言之：RM下包含AM和NM，NM会RM申请Container（其可理解为一个运行时的JVM），NM与RM的通信属于“Pull模型”，即NM主动上报状态信息，RM被动接受上报信息。

5.结束语

　　这篇文章就和大家分享到这里，如果大家在研究和学习的过程中有什么疑问，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

MapReduce－深度剖析的更多相关文章

《AngularJS深度剖析与最佳实践》简介
由于年末将至,前阵子一直忙于工作的事务,不得已暂停了微信订阅号的更新,我将会在后续的时间里尽快的继续为大家推送更多的博文.毕竟一个人的力量微薄,精力有限,希望大家能理解,仍然能一如既往的关注和支持sh ...
ASP.NET Core管道深度剖析（2）：创建一个“迷你版”的管道来模拟真实管道请求处理流程
从<ASP.NET Core管道深度剖析(1):采用管道处理HTTP请求>我们知道ASP.NET Core请求处理管道由一个服务器和一组有序的中间件组成,所以从总体设计来讲是非常简单的,但 ...
Objective-C类成员变量深度剖析
目录 Non Fragile ivars 为什么Non Fragile ivars很关键如何寻址类成员变量真正的“如何寻址类成员变量” Non Fragile ivars布局调整为什么Objec ...
大众点评开源分布式监控平台 CAT 深度剖析
一.CAT介绍 CAT系统原型和理念来源于eBay的CAL的系统,CAT系统第一代设计者吴其敏在eBay工作长达十几年,对CAL系统有深刻的理解.CAT不仅增强了CAL系统核心模型,还添加了更丰富的报 ...
深度剖析WordPress主题结构(转）
利用强大的技术,可以把基于wordpress的网站做成各种各样的形式,这除了要求wordpress主题开发人员精通html,PHP,JS,CSS等技术,还需要开发者掌握WordPress主题的框架. ...
LCD深度剖析
LCD 深度剖析来源:http://blog.csdn.net/hardy_2009/article/details/6922900 http://blog.csdn.net/jaylondon/a ...
WCF技术剖析之十九：深度剖析消息编码（Encoding）实现（下篇）
原文:WCF技术剖析之十九:深度剖析消息编码(Encoding)实现(下篇) [爱心链接:拯救一个25岁身患急性白血病的女孩[内有苏州电视台经济频道<天天山海经>为此录制的节目视频(苏州话 ...
大兴雷克萨斯深度剖析2013款LS460L_深圳大兴雷克萨斯_太平洋汽车网
大兴雷克萨斯深度剖析2013款LS460L_深圳大兴雷克萨斯_太平洋汽车网大兴雷克萨斯深度剖析2013款LS460L
MapReduce深度分析(二)
MapReduce深度分析(二) 五.JobTracker分析 JobTracker是hadoop的重要的后台守护进程之一,主要的功能是管理任务调度.管理TaskTracker.监控作业执行.运行作业 ...
MapReduce深度分析(一)
MapReduce深度分析(一) 一.数据流向分析图为MapReduce数据流向示意图步骤1.输入文件从HDFS流向到Mapper节点.在一般情况下,存储数据的节点就是Mapper运行的节点,不需 ...

随机推荐

js 加减乘除失精
js 计算失精是因为js 先将10十进制代码转化为2进制,再计算导致具体解决方案: 1. 加 function accAdd(arg1,arg2){ var r1,r2,m; ].length}} ...
Spark官方文档翻译（一）~Overview
Spark官方文档翻译,有问题请及时指正,谢谢. Overview页 http://spark.apache.org/docs/latest/index.html Spark概述 Apache Spa ...
删除centos7中自带有python2.7
删除centos7中自带有python2. ()强制删除已安装python及其关联 # rpm -qa|grep python|xargs rpm -ev --allmatches --nodeps ...
达里奥：典型的去杠杆化过程是怎么进行的zz
猛人RayDalio的“三部曲”之三:关于去杠杆化的深入理解作者系统地阐述了去杆杠化过程并深入探讨去杆杠化的运作机理,对我们理解当前全球乃至中国.即将或者已经面临的去杠杆化过程,应当能够带来一些帮助 ...
PowerShell工作流学习-1-嵌套工作流和嵌套函数
关键点: a)嵌套深度没有任何语法限制,但是嵌套三个层次的工作流不支持任何通用参数,包括工作流通用参数 b)嵌套工作流可以调用当前范围和任何父范围内的工作流和函数 c)工作流不允许递归调用,脚本和函数 ...
MFC：Tab控件嵌入对话框
1.先建立一个对话框MFC应用程序,然后在工具箱里面把Tab Control控件放到对话框中的合适位置上. 再在对话框类中,声明一个CTabCtrl变量: CTabCtrl m_tab; 变量m_ta ...
部署自己配置的nginx到kubernetes，并且能通过ingress访问
本文的环境介绍 [root@m-30-1 ~]# kubectl version Client Version: version.Info{Major:"1", Minor:&qu ...
MongoDB、MySQL
我的电脑的系统Path: D:\sqlite;D:\Program Files\MongoDB\Server\3.4\bin;%MYSQL_HOME%\bin;D:\Program Files\B ...
六.使用python操作mysql数据库
数据库的安装和连接 pymysql的安装 pip install PyMySQL python连接数据库 import pymysql db = pymysql.connec ...
Android studio 中的TabWidget
1.TabWidget 的 layout文件 <?xml version="1.0" encoding="utf-8"?> <TabHost ...

MapReduce－深度剖析