MapReduce 图解流程超详细解答(1)-【map阶段】

转自：http://www.open-open.com/lib/view/open1453097241308.html

在MapReduce中，一个YARN 应用被称作一个job， MapReduce 框架提供的应用，master的一个实现被称作MRAppMaster

MapReduce Job的时间线

MapReduce Job 运行的时间线：

Map Phase:若干 Map Tasks 被执行
Reduce Phase: 若干Reduce Tasks 被执行

reduce可能会在map阶段结束之前开始执行，因此上面显示的有重叠的地方。

Map Phase

现在我们集中考察map相，一个关键的问题是一个应用需要多少map任务去运行现在的这个job

用户给了我们什么？

我们退回到之前的一步，当一个用户提交一个应用的时候，若干信息被提供给了YARN ，分别是：

一个配置：这可以是一部分的，因为一些参数不需要用户特别指定，可以有自己的默认值。
一个jar文件，含有一个map，一个combiner，一个reduce
一个输入和输出信息输入目录是不是在hdfs上，有多少文件呢？输出的时候，我们存储在哪里

The number of files inside the input directory is used for deciding the number of Map Tasks of a job.
那么，输入的目录中文件的数量决定多少个map会被运行起来

多少个map任务？

应用针对每一个分片运行一个map，一般而言，对于每一个输入的文件会有一个map split。如果输入文件太大，超过了hdfs块的大小（64M）那么对于同一个输入文件我们会有多余2个的map运行起来。下面是FileInputFormat class 的getSplits()的伪代码：

num_splits = 0

for each input file f:

   remaining = f.length

   while remaining / split_size > split_slope:

      num_splits += 1

      remaining -= split_size

where:

split_slope = 1.1 分割斜率

split_size =~ dfs.blocksize 分割大小约等于hdfs块大小

在mapreduce2.0以上版本mapreduce.job.maps 属性会被忽略

MapTask Launch
启动MapTask

mapreduce应用会向资源管理器请求这个job需要的容器，一个maptask容器请求每一个maptask。一个容器对每一个maptask的请求会尝试利用map分片的本地性，应用会请求一下数据：

请求map split 和container在同一个节点管理器的container
如果没有，请求一个map split 和container在同一个机架上的节点管理器上的container
否则请求任意节点管理器上的container

这只是一小部分资源任务。资源任务器在资源任务器既定目标和指定目标冲突的时候，可以忽略本地性。当一个容器被分配一个任务，map就马上启动了。

Map阶段：一个执行阶段的例子

map 相的一个简要图：

有两个节点管理器：每一个2GB的内存，每一个map需要1GB我们可以并行运行两个容器。这是最好的情况，而资源任务器的决策可能会有所不同
集群没有其他的YARN任务运行
我们的job有8个map分片，也就是在输入文件夹中有7个文件，只有一个是大于hdfs块大小的，需要被拆分为两个文件。

map任务的执行时间线

现在我们可以聚焦单个的map task：这是单个map的执行时间线：

初始相：我们设置map任务
执行相：map分片里面的每一个键值对进行map（）函数运算
溢写相：map的输出保存在环形内存缓冲区，当缓冲区满80%（一般80%），启动溢写相，将缓冲的数据写出到磁盘。
洗牌相：在溢写相的结尾，我们合并多有的输出，并且打包他们以便进行reduce相处理。

map任务：初始化

在初始化阶段，我们：

创建一个上下文对象（context ）（TaskAttemptContext）
创建用户map.class实例
设置输入
设置输出
创建mapper的上下文(MapContext.class, Mapper.Context.class)
初始化输入也就是：
创建 SplitLineReader.class 分片行阅读器
创建HdfsDataInputStream.class hdfs数据输入流

Map任务：执行阶段

执行阶段通过 Mapper class.的run()方法：

用户可以重写这个方法，但是默认的时候通常会调用setup而启动这个程序。这个函数默认并不做什么有用的事情，但是可以被用户覆盖重写以便于设置任务（例如初始化类的变量），当设置完成之后，分片的每一个键值对会激发map()方法。因此map()接收到一个键，一个值，以及一个上下文context。使用这个上下文对象，一个map就会存储其输出到缓存中。

请注意，map分片是一个快一个块截取的（例如64kb），每一个快分割成为若干键值对的数据（ SplitLineReader.class干的好事），这是在Mapper.Context.nextKeyValue内部完成的。当map分片被全部处理之后，run()会调用clean()方法。默认的，没有什么会被执行，除非用户重写覆盖他。

map任务：溢写阶段

正如我们在执行阶段看到的一样，map会使用Mapper.Context.write()将map函数的输出溢写到内存中的环形缓冲区 (MapTask.MapOutputBuffer)。缓冲区的大小是固定的，通过mapreduce.task.io.sort.mb (default: 100MB)指定。

任何时候当这个缓冲区将要充满的时候（mapreduce.map. sort.spill.percent: 默认80% ），溢写将会被执行（这是一个并行过程，使用的是单独的线程，缓冲池还可以继续被写入）。如果溢写线程太慢，而缓冲区又忙了的话，map()就会暂停执行而等待。

溢写线程执行下面的动作：

创建一个溢写记录SpillRecord 和一个FSOutputStream 文件输出流（本地文件系统）
内存内排序缓冲中的块：输出的数据会使用快排算法按照partitionIdx, key排序
排序之后的输出会分割成为分区：每一个分区对应一个reduce
分区序列化写到本地文件

来自： http://blog.csdn.net//mrcharles/article/details/50465626