MapReduce的过程(2)

MapReduce的编程思想(1)

MapReduce的过程(2)

1. MapReduce从输入到输出

一个MapReduce的作业经过了input、map、combine、reduce、output五个阶段。
其中combine阶段不一定发生，map输出的中间结果被分发到reduce的过程称为shuffle（数据混洗）。
shuffle阶段会发生copy（复制）和sort（排序）。
Reduce任务默认在Map任务数量完成5%才开始启动。

2. input

HDFS上的文件作为MapReduce的输入，org.apache.hadoop.mapreduce.InputFormat类的子类FileInputFormat类将作为输入的HDFS上的文件切分形成输入分片（InputSplit），每个InputSplit将作为一个Map任务的输入，再将InputSplit解析为键值对。
InputSplit只是对数据逻辑上的分片，不会在磁盘上将文件切分、存储。 - 元数据信息由文件路径、文件开始的位置、文件结束的位置、数据块所在的host4部分组成。
InputSplit的数量=文件大小/InputSplitSize
尽量使InputSplit的大小和块的大小相同，从而提高Map任务计算的数据本地性。

3. Map和中间结果的输出

Map函数产生的输出时，为了保证I/O效率，采取了先写到内存的环形缓存区，并做一次预排序。
每个Map任务都有一个内存缓冲区（默认100M），用于存储map函数的输出。
一旦内存缓存区达到阀值，就会新建一个益处写文件，因此在Map任务写完其最后一个输出记录之后，会有若干个溢出写文件。
在Map任务完成之前，溢出写文件被合并成一个已分区且已排序的输出文件为map输出的中间结果。也是Map任务的输出结果。
combine若指定，会在输出文件写到磁盘之前运行，使得map输出的中间结果更紧凑，使得写到本地磁盘和出给Reduce的数据更少。
Map输出的中间结果存储格式为IFile，支持压缩的存储格式。
Reduce通过HTTP方式得到输出文件的分区。

4. shuffle

shuffle代表map函数产生输出到reduce的消化输入的整个过程。
在shuffle过程中，Map任务就处理的只是一个InputSplit，而Reduce任务处理的是所有Map任务同一个分区的中间结果。
shuffle的Copy阶段
- 当一个Map任务完成时，Reduce任务就开始复制其输出。
shuffle的Sort阶段
- 合并map的输出文件，并维持排序，做归并排序，排序过程循环进行。

5. Reduce及最后结果的输出

Reduce阶段操作实质上就是对经过shuffle处理后的文件调用reduce函数处理，reduce输出一般为HDFS。

6. Sort

MapReduce计算框架中，主要两种排序算法：快速排序和归并排序。
MapReduce过程中，共发生三次排序：
- 第一次排序是在内存缓冲区做的内排序，使用的算法是快速排序。
- 第二次和第三次排序都是文件合并阶段发生的，使用的是归并排序。

7. MapReduce作业进度组成

Map即Map，如map50%reduce0%，表示Map任务已经处理作业输入文件的60%。
Reduce阶段，分为copy、sort、reduce且各占1/3。如，reduce处理了2/3的输入，则整个reduce进度为1/3+1/3+1/3*(2/3)=5/9，因为reduce开始处理输入时，copy和sort已经完成。

MapReduce的编程思想(1)

MapReduce的过程(2)

MapReduce的过程(2)的更多相关文章

Hadoop MapReduce执行过程详解（带hadoop例子）
https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 Map ...
MapReduce Shuffle过程
MapReduce Shuffle 过程详解一.MapReduce Shuffle过程 1. Map Shuffle过程 2. Reduce Shuffle过程二.Map Shuffle过程 1. ...
MapReduce运行过程以及原理
1.map和reduce MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段.每个节点都以键值对作为输入和输出,其类型由程序员来选择.程序员还需要编写两个函数:map函数和red ...
分析MapReduce执行过程
分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出. Reducer任务会接收Mapper任务输 ...
Hadoop学习之Mapreduce执行过程详解
一.MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示: ...
hadoop源码分析(2)：Map-Reduce的过程解析
一.客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的. 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public static Runnin ...
彻底理解MapReduce shuffle过程原理
彻底理解MapReduce shuffle过程原理 MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好.MapR ...
Hadoop MapReduce执行过程实例分析
1.MapReduce是如何执行任务的?2.Mapper任务是怎样的一个过程?3.Reduce是如何执行任务的?4.键值对是如何编号的?5.实例,如何计算没见最高气温? 分析MapReduce执行过程 ...
Hadoop学习总结之Map-Reduce的过程解析111
一.客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的. 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public static Runnin ...
Hadoop学习总结之Map-Reduce的过程解析
一.客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的. 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public static Runnin ...

随机推荐

InformationSecurity：template
ylbtech-InformationSecurity: 1.返回顶部 2.返回顶部 3.返回顶部 4.返回顶部 5.返回顶部 6.返回顶部作者:ylbtech出处:ht ...
cnblogs开源合集
http://www.cnblogs.com/davytitan/p/4135151.html
[poj3107/poj2378]Godfather/Tree Cutting树形dp
题意:求树的重心(删除该点后子树最大的最小) 解题关键:想树的结构,删去某个点后只剩下它的子树和原树-此树所形成的数,然后第一次dp求每个子树的节点个数,第二次dp求解答案即可. 此题一开始一直T,后 ...
Aspose.words写表格时多出空格的问题
通过aspose.words创建表格时,每一个表格总是有一个制表符,和空格差不多,经过查找原因如下: 我是先通过书签找到需要插入表格的位置,在这个位置开始写表格的操作.问题出在书签上,这个书签在创建的 ...
c# dll自动注册
在网上看到一个c# dll自动注册的文章,我测试了一下,可用. 下面是具体代码 [DllImport("Ry4SCom.dll")] public static extern in ...
PLSQ创建用户L
1.首先使用dba权限角色登陆PLSQL 2.选择File-New-User 输入需要创建的账户及密码,选择表空间 3.一定要分配的权限:Role privileges 角色权限,至少分配conn ...
web API请求与参数获取
总结webAPI的常用请求方法与后台参数的获取: 一:get请求:(会将所以参数拼接到URL里面) 1:基础类型:string a=“hello” , 前端无论你是写到ajax里面的data属性还是 ...
window.onerror 捕捉所有的前端error
//[捕捉所有前端error] window.onerror = function (errormessage, url, line, column, error) { console.log(&qu ...
Weekly Contest 113
949. Largest Time for Given Digits (string::compare) Given an array of 4 digits, return the largest ...
洛谷 P5162 WD与积木【多项式求逆】
设f[i]为i个积木能堆出来的种类,g[i]为i个积木能堆出来的种类和 \[ f[n]=\sum_{i=1}^{n}C_{n}^{i}g[n-i] \] \[ g[n]=\sum_{i=1}^{n}C ...

MapReduce的过程(2)

MapReduce的编程思想(1)

MapReduce的过程(2)

1. MapReduce从输入到输出

2. input

3. Map和中间结果的输出

4. shuffle

5. Reduce及最后结果的输出

6. Sort

7. MapReduce作业进度组成

MapReduce的编程思想(1)

MapReduce的过程(2)

MapReduce的过程(2)的更多相关文章

随机推荐

热门专题