hadoop-mapreduce 详解

mapreduce 完整流程解析

1. 在客户端启动一个 job；

hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar -files tmp/example1/mapper.py,tmp/example1/reducer.py -mapper 'python mapper.py' -reducer 'python

reducer.py' -input /usr/mr/example1/input/* -output /usr/mr/example1/output10

2. 该 job 向 jobtrack 申请一个 job id；

3. 将运作该 job 所需的资源上传至 hdfs，包括：jar 文件、配置文件、客户端计算所得的计算划分信息；

　　jobtrack 为这些文件创建一个文件夹，名字为 job id；

　　jar 文件默认为 10 个副本；　　　　　　　　　　　　　　　　【由 mapred.submit.replication 属性控制】

　　输入划分信息告诉 jobtrack 应该为这个 job 启动多少个 map 任务；

4. jobtrack 收到 job 后，将其放入一个消息队列；

5. 该 job 被 get 时，jobtrack 根据输入划分信息为其创建对应个 map 任务，并将 map 任务分发给 tasktrack；

　　// 注意，在分发 map 任务时，需要把 map 任务发送到存有对应数据 block 的 tasktrack；

　　// 同时发送过去的还有 jar 包等文件；

　　// 这在 mr 中叫运算移动，数据不移动；

6. tasktrack 定时向 jobtrack 发送心跳，证明自己还活着，并且告诉 jobtrack map进度等多个信息；

7. jobtrack 收到 job 的最后一个任务完成信息时，将该作业标记为完成，并给用户发送信息

map 流程解析

map 中有几个主要概念：

分区：partition，根据 key 进行分区，一般是 hash 方法

排序：sort，对 key 进行排序，排序在 hadoop 中起到核心作用

溢写：spill，把数据从内存写入磁盘

流程图-单个 map 任务

本次描述以 wordcount 为例进行阐述

1. input split 输入切片，其实就是一个 block，我们可以理解为一个文件；

　　一个 split 对应一个 map；

　　默认情况下，一个 block 大小为 64M，当然可以自定义；

aaa

bbb

aaa

aaa

ccc

aaa

ccc

2. map 的输出存放在缓存中，　　　　　　　　　　　　　　　　　　　　【缓冲区默认大小为 100M，由 io.sort.mb 属性控制】

当缓存快要溢出时，　　　　　　　　　　　　　　　　　　　　　　　　　【默认为缓冲区的 80%，由 io.sort.spill.percent 属性控制】

在本地创建一个临时文件，将缓冲区的数据写入文件；

　　map 就是逐个处理，比如 work 为 key，value 为 1，直接扔到标准输出；

3. 在完成 spill 之前，需要 partition 和 sort，这是核心，为什么呢，看下图

如果设置了 Combiner，会将 sort 的结果 combiner 后再 spill 到磁盘，以节省磁盘空间；

分区的数目等于 reducer 任务的个数；

4. 如果 block 很大，需要溢写多个文件，就行上图中第四列所示；

5. map 完毕有多个溢写文件时，需要将这些文件根据 key 进行合并为一个带分区的文件；

　　合并的过程也有 sort 和 combiner 操作；

　　为了减少网络传输，这里还可以将合并后的文件压缩；　　　　【只要将 mapred.compress.map.out 设置为true就可以】

6. 将分区中的数据拷贝到对应的 renducer 任务；

reducer 流程解析

这里放一张中文图，其实和上图一样

1. 将多个 map 传过来的数据进行 sort ，然后合并；

2. reducer 处理；

3. 将结果输出到 hdfs；

最后再来几张图，再看已是一目了然

参考资料：

https://www.cnblogs.com/laowangc/p/8961946.html#top　　

https://www.jianshu.com/p/461f86936972

https://www.cnblogs.com/52mm/p/p15.html