MapReduce过程<原创>

一、预处理阶段

二、Map阶段

一个Map任务被JobTracker(管家)分配到多个TaskTracker(弟弟)执行,如下图所示，弟弟的map()只负责拆分，虽然map()输出两个相同的键值对，但它并不会对两个重复的键值对进行合并，而且输出的键值对也是无序的，没有按照字母顺序排列。而这些工作都会交给Shuffle(洗牌)阶段去做。

三、Shuffle阶段

Shuffle阶段实际上并不是一个和Map阶段和Reduce阶段独立的阶段，实际上它分为Map端的Shuffle阶段和Reduce端的阶段，为了方便讨论，就把这个两个子阶段放在一起讨论，统称为Shuffle阶段。

（一）Map端的Shuffle阶段

每个map()任务都会被分配一块缓存，对于每个map()的输出数据，不是直接写入磁盘，而是先写入缓存里，当缓存达到一定比例时对它进行溢写操作，将溢写好的数据进行归并(、合并)发送到本地磁盘，并清空该数据占用的缓存，还在执行的map()们可以继续不停地将结果写入缓存。之所以这样设计，是为了减少I/O消耗，节省了时间。

溢写，包括分区(Partiyion)、排序(Sort)、合并(Combine)。溢写过程，是在缓存中完成的。

看过巨佬的博客之后对错误的理解进行了更正：每个分区含有多个不同key值的键值对，而不是一个分区只含有一种key值对应的多个键值对。举例：

1分区： < Hello ，1> <Hello ，1 > <Hadoop ，1 > ， 2分区：<World ，1 > <World ，1>

即key值为Hello的键值对全部被分到1分区，其他分区不会存在key值为Hello的键值对，而1分区除了Hello还有多个其他的key值的键值对存在。

合并(Combine)与归并(Merge)的区别:

合并是针对每个分区内部的键值对的操作，而归并是针对磁盘中的多个溢写文件的操作，将多个溢写文件归并成一个大的溢写文件。

对于两个键值对< a ,1 >和< a ,1>,合并的结果是 <a , 2 >：合并实际上就是在map端执行reduce的操作，是为了减少网络传输开销，但是并不是所有的情况都能使用合并操作，可通过调用job.setCombinerClass（MyReduce.class）设置这一操作；

而归并的结果是<a,<1,1>>，合并是不是默认MapReduce的默认操作，归并是默认操作。归并的结果是可以继续合并再作为最终结果发送到本地磁盘作为Reduce的输入的。

(二)Reduce端的Shuffle阶段

1.领取数据

Map端的Shuffle阶段将合并或归并好的数据发送到本地磁盘里。在Map任务开始后，Reduce会不断的通过RPC通信协议来询问JobTracker(管家)，Map任务是否已经完成。JobTracker检测到一个Map任务完成后会通知相关的Reduce来领取属于自己的数据。一般系统中会存在多个Map机器，Reduce需要使用多线程同时从多个Map机器领取数据。

2.归并、输出

尽管每个map()都在之前进行过合并、归并处理，但当Reduce从多个Map机器中领取回数据后，Reduce机器的缓冲中又存在着相同的可以合并的键值对、具有相同key值的键值对也会被归并。在这个阶段，合并也不是默认的，需要用户自定义。和Map端的Shuffle阶段不同的是，当前阶段生成多个文件发送给Reduce阶段。

三、Reduce阶段

对不同分区的相同key对应的值进行相加，输出最后的结果。并写入到HDFS系统中，也就是写入磁盘。

一定要看：

巨佬博客(一看就懂系列)：https://www.cnblogs.com/npumenglei/p/3631244.html

MapReduce过程<原创>的更多相关文章

MapReduce过程(包括Shuffle)详解
首先,map的输入数据默认一个一个的键值对,键就是每一行首字母的偏移量,值就是每一行的值了. 然后每一个输入的键值对都会用我们定义的map函数去处理,这里用wordcount来举例的话就是,每一个键值 ...
MapReduce过程详解(基于hadoop2.x架构)
本文基于hadoop2.x架构详细描述了mapreduce的执行过程,包括partition,combiner,shuffle等组件以及yarn平台与mapreduce编程模型的关系. mapredu ...
Hadoop - MapReduce 过程
Hadoop - MapReduce 一.MapReduce设计理念 map--->映射 reduce--->归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架在线: ...
MapReduce 过程详解
Hadoop 越来越火, 围绕Hadoop的子项目更是增长迅速, 光Apache官网上列出来的就十几个, 但是万变不离其宗, 大部分项目都是基于Hadoop common MapReduce 更是核心 ...
WordCount示例深度学习MapReduce过程（1）
我们都安装完Hadoop之后,按照一些案例先要跑一个WourdCount程序,来测试Hadoop安装是否成功.在终端中用命令创建一个文件夹,简单的向两个文件中各写入一段话,然后运行Hadoop,Wou ...
关于mapreduce过程中出现的错误：Too many fetch-failures
Reduce task启动后第一个阶段是shuffle,即向map端fetch数据.每次fetch都可能因为connect超时,read超时,checksum错误等原因而失败.Reduce task为 ...
hadoop的mapreduce过程
http://www.cnblogs.com/sharpxiajun/p/3151395.html 下面我从逻辑实体的角度讲解mapreduce运行机制,这些按照时间顺序包括:输入分片(input s ...
MapReduce过程详解及其性能优化
http://blog.csdn.net/aijiudu/article/details/72353510 废话不说直接来一张图如下: 从JVM的角度看Map和Reduce Map阶段包括: 第一读数 ...
WordCount示例深度学习MapReduce过程
转自: http://blog.csdn.net/yczws1/article/details/21794873 . 我们都安装完Hadoop之后,按照一些案例先要跑一个WourdCount程序,来测 ...

随机推荐

C语言实现逆置功能
C语言实现逆置功能 //凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 1. 字符串的逆置方法1:利用数组 #include<stdio.h> ...
精度 Precision
柏拉图认为,尽管世间万物是不完美的,但存在一种永恒不变的形式,这个形式是完美的,而生命的意义就是让这个世界尽可能的接近这个完美的形式. 怎么理解这句话,和我们今天讲的精度有什么关系.我们先举一个例子, ...
Docker for Windows 中文文档（3）——Docker Settings
Docker设置 Docker运行时,显示Docker鲸鱼. 默认情况下,Docker鲸鱼图标被放置在“通知”区域中. 如果隐藏,单击任务栏上的向上箭头显示. 提示:您可以将鲸鱼固定在通知框外面,使其 ...
POJ 3970（最小公倍数LCM）
版权声明:Site:https://skyqinsc.github.io/ https://blog.csdn.net/u013986860/article/details/26182055 知 ...
Python打包—Pyinstaller
2018-09-27 21:12:05 一前言在windows平台学习python的过程中,你肯定会遇到需要把.py脚本打包成.exe的情形,如此,至少有两方面的好处:第一,你的代码保密性更好 ...
一、springBoot简介与环境搭建
前言:学习计划 1.springBoot环境搭建 2.springBoot入门 3.srpingBoot整合Mybatis 4.springBoot整合Redis,Redis集群 5.springBo ...
【window】Windows10下为PHP安装redis扩展
操作: 步骤1:D:\wamp\bin\apache\apache2.4.9\bin/php.ini中添加 ; php_redis extension=php_igbinary.dll extensi ...
007_Mac上安装Node和NPM
一.推荐brew来对node和npm版本进行管理. <1>确保brew是安全可靠的,代码如下: $ brew doctor #直接install node会有以下报错https://git ...
Python 中的浅拷贝和深拷贝
1. 列表和字典,直接赋值,都是浅拷贝,即赋值双方指向同一地址,因为 Python 对可变对象按引用传递. >>> a = [1, 2, 3] >>> b = a ...
面试官问，说一个你在工作非常有价值的bug
如果你去参考面试,做足了准备,面对面试官员从容不迫,吐沫横飞的大谈自己的工作经历.突然,面试官横插一句:说一个你在工作非常有价值的bug.顿时,整个空气都仿佛都凝固了!“What?”... 我想没几个 ...

MapReduce过程<原创>

MapReduce过程<原创>的更多相关文章

随机推荐

热门专题