MR中的combiner和partitioner

1.combiner

combiner是MR编程模型中的一个组件；

有些任务中map可能会产生大量的本地输出，combiner的作用就是在map端对输出先做一次合并，以减少map和reduce节点之间的数据传输量，提高网络IO性能，是MR的优化手段之一；

两大基本功能：

1.1map的输出的key的聚合，对map输出的key排序、value进行迭代；

1.2reduce功能。

并不是设置了combiner就一定会执行（在当前集群非常繁忙的时候设置了也不会执行）；

combiner的执行时机：combiner的执行可能会在map的merge之前也可能在之后，这个参数由配置选项min.num.spill.for.combine（默认为3） 决定的，当map端产生的spill文件最少有这么3个时，combiner会在merge操作之前执行，否则之后。

一般情况下可以使用自己写的reduce类作为combiner，但是特殊情况下也可以自定义

 public static class combiner extends Reducer<Text,Text,Text,Text>{

     private Text info = new Text();    //为了拆分 key值 准备存储新的value值

     public void reduce(Text key,Iterable<Text>values,Context context) throws IOException, InterruptedException{

       int sum = 0;

       for(Text val:values){

         sum += Integer.parseInt(val.toString());

       }

       int splitIndex = key.toString().indexOf(":");

       info.set(key.toString().substring(splitIndex+1)+":"+sum);    //新的value值

       key.set(key.toString().substring(0, splitIndex));

       context.write(key, info);

     }

   }

job.setCombinerClass(combiner.class);

2.partitioner

combiner可以减少map的输出到reducer所在节点的网络IO，但是map的输出被分配到哪个reducer上，是由partitioner决定的；

partitioner只有一个方法：

getPartition(Text key, Text value, int numPartitions)

输入的是map的结果对<key,value>和reducer的数目，返回的则是分配的reducer的编号（整数）。系统缺省的partitioner是HashPartitioner，它以key的Hash值对reducer的数目取模，得到对应的reducer。这样可以保证如果有相同的key值则肯定会被分配到同一个reducer上；
和combiner一样，一般使用默认的，但是特殊情况也可以自定义

 public class NewPartition extends HashPartitioner<Text,Text>{

       String keyinfo;

       public int getPartition(Text key,Text value,int numReducerTasks){

         keyinfo = key.toString().split(":")[0];

         return super.getPartition(new Text(keyinfo), value, numReducerTasks);

       }

     }

job.setPartitionClass(NewPartition.class);

MR中的combiner和partitioner的更多相关文章

MapReduce学习总结之Combiner、Partitioner、Jobhistory
一.Combiner 在MapReduce编程模型中,在Mapper和Reducer之间有一个非常重要的组件,主要用于解决MR性能瓶颈问题 combiner其实属于优化方案,由于带宽限制,应该尽量ma ...
[MapReduce_5] MapReduce 中的 Combiner 组件应用
0. 说明 Combiner 介绍 && 在 MapReduce 中的应用 1. 介绍 Combiner: Map 端的 Reduce,有自己的使用场景在相同 Key 过多的情况下 ...
总结的MR中连接操作
1 reduce side join在map端加上标记, 在reduce容器保存,然后作笛卡尔积缺点: 有可能oom 2 map side join 2.1 利用内存和分布式缓存,也有oom风险 2 ...
mapreduce项目中加入combiner
combiner相当于是一个本地的reduce,它的存在是为了减少网络的负担,在本地先进行一次计算再叫计算结果提交给reduce进行二次处理. 现在的流程为: 对于combiner我们有这些理解: M ...
MR中使用sequnceFIle输入文件
转换原始数据为块压缩的SequenceFIle import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.C ...
【Hadoop】Hadoop MR 性能优化 Combiner机制
1.概念 2.参考资料提高hadoop的mapreduce job效率笔记之二(尽量的用Combiner) :http://sishuo(k).com/forum/blogPost/list/582 ...
MR中简单实现自定义的输入输出格式
import java.io.DataOutput; import java.io.IOException; import java.util.HashMap; import java.util.Ma ...
大数据入门第八天——MapReduce详解（三）MR的shuffer、combiner与Yarn集群分析
/mr的combiner /mr的排序 /mr的shuffle /mr与yarn /mr运行模式 /mr实现join /mr全局图 /mr的压缩今日提纲一.流量汇总排序的实现 1.需求对日志数据 ...
RDD(弹性分布式数据集)及常用算子
RDD(弹性分布式数据集)及常用算子 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型.代码中是一个抽象类,它代表一个 ...

随机推荐

ajax 留言板
<!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
第二百二十天 how can I 坚持
今天如愿去了凤凰岭,比想象中的好多了.山好陡,都没有爬到山顶,下山时山都有点黑了,有点恐怖. 凤凰岭啊.有时间还得再去趟. 下周去八大处.坚持. 看什么时候能把北京这些山爬完,然后三山五岳. 不爽. ...
static_cast, dynamic_cast, const_cast探讨
转自:http://www.cnblogs.com/chio/archive/2007/07/18/822389.html 首先回顾一下C++类型转换: C++类型转换分为:隐式类型转换和显式类型转换 ...
MSSQL 2005数据库可疑状态
今天早上打开进销存,提示链接失败,经过检查参数,网络.端口等各种情况,均没有发现问题,最后检查数据库本事的问题. 通过studio进去发现我的进销存数据变成了(可疑)状态,随机百度修复方法,修复方法还 ...
USB -- scsi命令集
摘自:<圈圈教你玩usb> 241页 SCSI(small computer system interface)是小型计算机系统的缩写,有一套完整的协议规定其命令和命令数据的响应.scsi ...
WIN7 WIN8 笔记本无线网卡MAC地址修改
找了好久，尝试了好多种方法，最后终于在下面的网址里找到了解决方案 http://jingyan.baidu.com/article/ceb9fb10e32bce8cac2ba04a.html 使用MA ...
AJAX的工作原理及其优缺点
1.什么是AJAX?AJAX全称为“Asynchronous JavaScript and XML”(异步JavaScript和XML),是一种创建交互式网页应用的网页开发技术.它使用:使用XHTML ...
ACM之递推递归
Hdu 2569 突破蝙蝠的包围,yifenfei来到一处悬崖面前,悬崖彼岸就是前进的方向,好在现在的yifenfei已经学过御剑术,可御剑轻松飞过悬崖. 现在的问题是:悬崖中间飞着很多红,黄,蓝三种 ...
POJ 3659 Cell Phone Network (树dp)
题目链接:http://poj.org/problem?id=3659 给你一个树形图,一个点可以覆盖他周围连接的点,让你用最少的点覆盖所有的点. dp[i][0]表示用i点来覆盖,dp[i][1]表 ...
java获取数据库的所有列名和对应的数据库类型
/** * 连接数据库 * @param driver 数据库的驱动类 * @param url 数据库的地址 * @param userName 数据库的用户名 ...

MR中的combiner和partitioner

MR中的combiner和partitioner的更多相关文章

随机推荐

热门专题