本章来简单介绍下 Hadoop MapReduce 中的 Combiner。Combiner 是为了聚合数据而出现的,那为什么要聚合数据呢?因为我们知道 Shuffle 过程是消耗网络IO 和 磁盘IO 比较大的操作,如果我们能减少 Shuffle 过程的数据量,那就可以提升整个 MR 作业的性能。我在《大数据技术 - MapReduce的Shuffle及调优》 一文中写到 Shuffle 中会有两次调用 Combiner 的过程,有兴趣的朋友可以再翻回去看看。接下来我们还是以 WordCount 为例,简单介绍下 Combiner 的作用以及何时可以设置 Combiner。

Combiner 的作用

假设有 2 个输入文件,每个文件只有一行数据,因此 map 阶段启动的 map 任务数为 2,reduce 任务的数量使用默认值 1 即可。文件内容如下:

#第一个文件内容
hello hello #第二个文件的内容
world world

本例子仍然使用《大数据技术 - 通俗理解MapReduce之WordCount》中的代码。该 MR 作业数据传输过程如下:

由上图可以发现,每个 map 任务的输出都有重复的 key。假设每个任务输出记录是几百万甚至几千万,重复的 key 会更多。这时如果我们要减少 Shuffle 过程传输的数据量,我们要怎么办呢?由于我们这个作业是个计数的任务,因此容易想到的方法是在 map 端输出的时候对相同的 key 先做一遍计数,这样做一来可以减少数据量,二来不影响 reduce 端的统计结果。在 Hadoop 中如果要实现上述过程需要在 job 中指定 Combiner,代码如下:

job.setMapperClass(WordCountMapper.class); //设置 map 任务的类
job.setCombinerClass(WordCountReducer.class); // 设置 Combiner
job.setReducerClass(WordCountReducer.class); // 设置 reduce 任务的类

我们可以看到设置 Combiner 的 class 与 Reducer 相同,因此我们说 Combiner 不会改变 reduce 的输出结果。引入 Combiner 后,我们的 MR 作业数据传输过程如下:

设置 Combiner 后,Shuffle 过程传输的数据量明显减少。这里就是我们在写 Shuffle 那篇文章中所说的,map 任务输出到本地磁盘时会先判断有没有设置 Combiner ,如果有会调用 Combiner 做聚合以减少写入磁盘的数据量,从而减少网络 IO。Shuffle 还有一个过程会调用 Combiner 但在上图没有体现。那就是在 reduce 复制阶段需要溢写文件的时候,因为 reduce 接收来自不同的 map 输出的数据,这时候会出现 key 相同的记录,对相同 key 进行聚合同样可以减少输出到磁盘的数据量,同时也可以减少 reduce 函数对内存的占用。

为什么要用 Combiner

读到这里我们已经清楚了 Combiner 的作用。可能有些读者会说,我在 map 函数中把相同的 key 聚合起来不一样能达到 map 输出的聚合效果吗, 同样也能减少 Shuffle 过程的网络 IO。但这种做法并不可取,原因有三:

  • 这种做法 map 函数和 reduce 函数业务逻辑出现重合
  • 如果 reduce 函数要做一些其他的处理逻辑,比如对输入的 key 小写转大,那么 map 函数中也要进行同样的处理
  • 经过上面的介绍我们知道调用 Combiner 不止在 map 输出时会发生,reduce 复制阶段时也会发生,如果将聚合操作写在 map 函数里,reduce 复制阶段将无法聚合

但是引入 Combiner 就不会出现上述问题,这里我们总结一下为什么要引入 Combiner

  • 减少本地磁盘 IO
  • 减少 reduce 端复制数据的网络 IO
  • 将上述优化与业务逻辑剥离,使得作业调优与业务逻辑之间的耦合度降低

因此,个人认为 Combiner 的设计是比较优秀的。我们学习新东西的时候就是需要不断的思考为什么要这样设计,这样设计的优缺点以及不这样设计的优缺点,这样我们成长的会快。

什么时候用 Combiner

到目前为止我们已经知道 Combiner 的优势非常明显,但是不是所有的作业都可以设置 Combiner 呢?答案是否定的。对于我们的 WordCount 这个例子来说,因为是求和操作,因此在任何阶段进行求和不会影响最终的结果。但是有些作业是不行的,比如求平均值。如果在 map 输出时或者 reduce 复制阶段对一部分 key 先求了平均值,那是无法保证最终 reduce 函数输出的平均值是正确的。因此对于求最值、求和之类的统计我们可以设置 Combiner。

除了直接用 Reducer 设置 Combiner 外,我们也可以自定义 Combiner ,跟写 Reducer 一样,需要继承 Reducer<K1, V1, K2, V2>,实现 reduce 方法。只要保证最终不影响 reduce 输出结果即可。

总结

总结一下这篇文章,在优化 MR 作业的 Shuffle 时可以考虑引入 Combiner 来减少网络 IO 和磁盘 IO。但一般针对特定的统计任务才可以引入 Combiner ,如求最值、求和。同时,我们也深入分析引入 Combiner 在设计上的优势,既可以灵活应用在各个阶段进行聚合,又可以将调优与业务逻辑解耦。

大数据技术 - MapReduce的Combiner介绍的更多相关文章

  1. 大数据技术 - MapReduce的Shuffle及调优

    本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解释是 “洗牌”,顾名思义该过程涉及数据的重新分配,主要 ...

  2. 大数据技术 - MapReduce 作业的运行机制

    前几章我们介绍了 Hadoop 的 MapReduce 和 HDFS 两大组件,内容比较基础,看完后可以写简单的 MR 应用程序,也能够用命令行或 Java API 操作 HDFS.但要对 Hadoo ...

  3. 大数据技术 —— MapReduce 简介

    本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/ 1.概要很多计算在概念上很直观,但由于输入数据很大,为了能在合理的时间内完成,这些计算必须分布在 ...

  4. 大数据技术 - MapReduce 应用的配置和单元测试

    上一章的 MapReduce 应用中,我们使用了自定义配置,并用 GenericOptionsParser 处理命令行输入的配置,这种方式简单粗暴.但不是 MapReduce 应用常见的写法,本章第一 ...

  5. MaxCompute 最新特性介绍 | 2019大数据技术公开课第三季

    摘要:距离上一次MaxCompute新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute不断地在增加新的功能和特性,比如参数化视图.UDF支持动态参数.支持分区裁剪.生 ...

  6. 【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)

    1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可 ...

  7. 参加2013中国大数据技术大会(BDTC2013)

    2013年12月5日-6日参加了为期两天的2013中国大数据技术大会(Big Data Technology Conference, BDTC2013),本期会议主题是:“应用驱动的架构与技术 ”.大 ...

  8. 大数据技术生态圈形象比喻(Hadoop、Hive、Spark 关系)

    [摘要] 知乎上一篇很不错的科普文章,介绍大数据技术生态圈(Hadoop.Hive.Spark )的关系. 链接地址:https://www.zhihu.com/question/27974418 [ ...

  9. 从大数据技术变迁猜一猜AI人工智能的发展

    目前大数据已经成为了各家互联网公司的核心资产和竞争力了,其实不仅是互联网公司,包括传统企业也拥有大量的数据,也想把这些数据发挥出作用.在这种环境下,大数据技术的重要性和火爆程度相信没有人去怀疑. 而A ...

随机推荐

  1. Confluence 6 配置服务器基础地址

    服务器基础地址(Server Base URL)是用户访问 Confluence 的 URL 地址.这个基础的 URL 地址必须与你在浏览器中访问 Confluence 中的地址. Confluenc ...

  2. redis持久化之AOF

    一:Redis的AOF是什么? 以日志的形式来记录每个写操作(读操作不记录),将Redis执行过的所有写指令记录下来(读操作不记录),只许追加文件但不可以改写文件,redis启动之初会读取该文件重新构 ...

  3. BrupSuite渗透测试笔记(九)

    一. Update BurpSuite 1.选择help ,点击check for updates 记可以进入最新版本的下载界面,profession version need pay for mon ...

  4. Django标签&迭代&循环&过滤

    1.{% for Person in persons %}模板标签的替换,就是利用了基础模板的底层设计,嵌套了其他显示的内容.常见的内容替换标签{% block content %}{%endbloc ...

  5. Nginx详解二十五:Nginx架构篇之Nginx常见的问题

    Nginx常见的问题 1.相同server_name多个虚拟主机优先级访问,是按读取文件的优先级来排序 在/opt/app/下准备3个code文件夹,下面放入3个html文件,里面的内容分别是code ...

  6. 怎么加密接口防止,API外部调用?

    服务器端与客户端各自会存储一个TOKEN,这个TOKEN我们为了防止反编译是用C语言来写的一个文件并做了加壳和混淆处理.在客户端访问服务器API任何一个接口的时候,客户端需要带上一个特殊字段,这个字段 ...

  7. CHENGDU3-Restful API 接口规范、django-rest-framework框架

    Restful API 接口规范.django-rest-framework框架 问题:什么是API? 答:API是接口,提供url. 接口有两个用途: 为别人提供服务,前后端分离. 为什么使用前后端 ...

  8. java实现满天星swing&awt

    一起有两个类 1.MyStar.java package day02; import java.awt.Color; import javax.swing.JFrame;import javax.sw ...

  9. 小甲鱼python基础教程飞机大战源码及素材

    百度了半天小甲鱼python飞机大战的源码和素材,搜出一堆不知道是什么玩意儿的玩意儿. 最终还是自己对着视频一行行代码敲出来. 需要的同学点下面的链接自取. 下载

  10. CentOS7安装wps

    https://blog.csdn.net/u010445843/article/details/77828552