第2节 mapreduce深入学习：7、MapReduce的规约过程combiner

每一个 map 都可能会产生大量的本地输出，Combiner 的作用就是对 map 端的输出先做一次合并，以减少在 map 和 reduce 节点之间的数据传输量，以提高网络IO 性能，是 MapReduce 的一种优化手段之一。

 combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件

 combiner 组件的父类就是 Reducer

 combiner 和 reducer 的区别在于运行的位置：

Combiner 是在每一个 maptask 所在的节点运行 Reducer 是接收全局所有 Mapper 的输出结果；

 combiner 的意义就是对每一个 maptask 的输出进行局部汇总，以减小网络传输量

 具体实现步骤：

1、自定义一个 combiner 继承 Reducer，重写 reduce 方法

2、在 job 中设置： job.setCombinerClass(CustomCombiner.class)

combiner 能够应用的前提是不能影响最终的业务逻辑，而且，combiner 的输出 kv 应该跟 reducer 的输入 kv 类型要对应起来。

代码：

SortMain：
添加如下代码

//设置第五步：规约
job.setCombinerClass(SortCombiner.class);

SortCombiner：

package cn.itcast.demo2.sort;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
/**
 * 注意自定义combiner的话，输入类型和输出类型，都是key2  value2
 * 作用：减少输出到reduce的key2的个数
 */
public class SortCombiner extends Reducer<PairSort,Text,PairSort,Text> {
    @Override
    protected void reduce(PairSort key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        //这里面写规约的逻辑
        for (Text value:values){
            context.write(key,value);
        }
    }
}

第2节 mapreduce深入学习：7、MapReduce的规约过程combiner的更多相关文章

第2节 mapreduce深入学习：14、mapreduce数据压缩-使用snappy进行压缩
第2节 mapreduce深入学习:14.mapreduce数据压缩-使用snappy进行压缩文件压缩有两大好处,节约磁盘空间,加速数据在网络和磁盘上的传输. 方式一:在代码中进行设置压缩代码: ...
第2节 mapreduce深入学习：8、手机流量汇总求和
第2节 mapreduce深入学习:8.手机流量汇总求和例子:MapReduce综合练习之上网流量统计. 数据格式参见资料夹需求一:统计求和统计每个手机号的上行流量总和,下行流量总和,上行总流量 ...
第2节 mapreduce深入学习：6、MapReduce当中的计数器
第2节 mapreduce深入学习:6. MapReduce当中的计数器计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计.计数器还可辅助诊断系统故障.如果需要将日志信息传输到map ...
第2节 mapreduce深入学习：4, 5
第2节 mapreduce深入学习:4.mapreduce的序列化以及自定义排序序列化(Serialization)是指把结构化对象转化为字节流. 反序列化(Deserialization)是序列化 ...
第2节 mapreduce深入学习：2、3
第2节 mapreduce深入学习:2.MapReduce的分区:3.分区案例的补充完成运行实现在MapReduce中,通过我们指定分区,会将同一个分区的数据发送到同一个reduce当中进行处理,例 ...
Hadoop MapReduce编程学习
一直在搞spark,也没时间弄hadoop,不过Hadoop基本的编程我觉得我还是要会吧,看到一篇不错的文章,不过应该应用于hadoop2.0以前,因为代码中有 conf.set("map ...
hadoop学习(七)----mapReduce原理以及操作过程
前面我们使用HDFS进行了相关的操作,也了解了HDFS的原理和机制,有了分布式文件系统我们如何去处理文件呢,这就的提到hadoop的第二个组成部分-MapReduce. MapReduce充分借鉴了分 ...
mapreduce任务中Shuffle和排序的过程
mapreduce任务中Shuffle和排序的过程流程分析: Map端: 1．每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置 ...
MapReduce教程(一)基于MapReduce框架开发<转>
1 MapReduce编程 1.1 MapReduce简介 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,用于解决海量数据的计算问题. MapReduce分成了两个部分: ...

随机推荐

ES6 基础知识-----简记 let const
ES5中只有函数作用域和全局作用域,声明变量使用var,在es6中添加声明变量 let const let 声明块级作用域变量, let 不存在变量提升 var命令会发生”变量提升“现象,即变量可以在 ...
Tensorflow卷积接口总结
tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) 这个接口用了这么久,每次都有点迷惑,这里 ...
Pascal之计算小系统
program Project16; {$APPTYPE CONSOLE} VAR n,i,k,score,b,a:integer; answer,c:real; ch:char; Begin rep ...
IDEA Terminal
如果IDEA在Terminal中无法使用环境变量,提示没有此命令的话,请查看在cmd中是否可以正常使用,然后,请右击IDEA以管理员方式进行运行,Terminal就可以正常使用了
Linux 常用命令五软链接和硬链接
一.软链接相当于windows的快捷方式,当源文件不存在时,软链接失效. 创建软链接: wang@wang:~/workpalce/python$ ls -l 总用量 -rw-rw-r-- wang ...
bzoj 1911: [Apio2010]特别行动队【斜率优化dp】
仔细想想好像没学过斜率优化.. 很容易推出状态转移方程$ f[i]=max{f[j]+a(s[i]-s[j])^2+b(s[i]-s[j])+c} $ 然后考虑j的选取,如果选j优于选k,那么: ...
Tech 助力Fin ，大数据风控系统赋能掌众金服！
胡亚海首席技术官 CTO 北京航空航天大学博士深耕互联网领域近20年,先后任职于普天信息技术研究院.摩托罗拉.宇龙酷派.百度等知名企业,曾主导宇龙酷派公司全员从WinCE向Android转型 ...
《Windows核心编程系列》十一谈谈Windows线程池
Windows线程池上一篇博文我们介绍了IO完成端口.得知IO完成端口可以非常智能的分派线程.但是IO完成端口仅对等待它的线程进行分派,创建和销毁线程的工作仍然需要我们自己来做. 我们自己也可以创建 ...
[POI2007]大都市meg
Description 在经济全球化浪潮的影响下,习惯于漫步在清晨的乡间小路的邮递员Blue Mary也开始骑着摩托车传递邮件了.不过,她经常回忆起以前在乡间漫步的情景.昔日,乡下有依次编号为1..n ...
php 静态绑定
简介编辑后期静态绑定从PHP 5.3.0开始,PHP增加了一个叫做后期静态绑定的功能,用于在继承范围内引用静态调用的类. 该功能从语言内部角度考虑被命名为”后期静态绑定“.”后期绑定“的意思是说 ...

第2节 mapreduce深入学习：7、MapReduce的规约过程combiner

第2节 mapreduce深入学习：7、MapReduce的规约过程combiner的更多相关文章

随机推荐

热门专题