在hadoop作业中自定义分区和归约

当遇到有特殊的业务需求时，需要对hadoop的作业进行分区处理

那么我们可以通过自定义的分区类来实现

还是通过单词计数的例子，JMapper和JReducer的代码不变，只是在JSubmit中改变了设置默认分区的代码，见代码：

		//1.3分区

		//设置自定义分区类

		job.setPartitionerClass(JPartitioner.class);

		//设置分区个数--这里设置成2，代表输出分为2个区，由两个reducer输出

		job.setNumReduceTasks(2);

自定义的JPartitioner代码如下：

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

//自定义的分区类必须继承Partitioner类，这里只要继承默认的HashPartitioner，并重写getPartition方法即可

public class JPartitioner extends HashPartitioner<Text, LongWritable> {

	@Override

	public int getPartition(Text key, LongWritable value, int numReduceTasks) {

		//由于之前在代码中设置了分区的个数为2,

		//getPartition方法的返回值就是分区的下标，如：第一个分区return 0，第二个return 1

		//如果key的长度小于4，那么将这些键值对分入第一个区

		//否则就分入第二个区，<span style="font-family: Arial, Helvetica, sans-serif;">numReduceTasks是设置的分区数量</span>

		return key.toString().length() < 4 ? 1 % numReduceTasks

<span style="white-space:pre">				</span>: 2 % numReduceTasks;

	}

}

自定义分区就完成了

如果在海量数据的情况下，可能要设置归约（combiner）来减轻网络和reducer的压力

那么可以再JSubmit中通过代码设置combiner的类来启动

代码很简单，就一句话

<span style="white-space:pre">		</span>//1.5归约

		job.setCombinerClass(JReducer.class);

其实combiner和reducer都是设置的JReducer

侧面反映了combiner的角色作就是本地的reducer

在hadoop作业中自定义分区和归约的更多相关文章

【Hadoop】MapReduce自定义分区Partition输出各运营商的手机号码
MapReduce和自定义Partition MobileDriver主类 package Partition; import org.apache.hadoop.io.NullWritable; i ...
关于MapReduce中自定义分区类（四）
MapTask类在MapTask类中找到run函数 if(useNewApi){ runNewMapper(job, splitMetaInfo, umbilical, reporter ...
Hadoop【MR的分区、排序、分组】
[toc] 一.分区问题:按照条件将结果输出到不同文件中自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Pa ...
通过java api提交自定义hadoop 作业
通过API操作之前要先了解几个基本知识一.hadoop的基本数据类型和java的基本数据类型是不一样的,但是都存在对应的关系如下图如果需要定义自己的数据类型,则必须实现Writable hado ...
Hadoop学习之路(6)MapReduce自定义分区实现
MapReduce自带的分区器是HashPartitioner 原理:先对map输出的key求hash值,再模上reduce task个数,根据结果,决定此输出kv对,被匹配的reduce任务取走. ...
[MapReduce_8] MapReduce 中的自定义分区实现
0. 说明设置分区数量 && 编写自定义分区代码 1. 设置分区数量分区(Partition) 分区决定了指定的 Key 进入到哪个 Reduce 中分区目的:把相同的 Key ...
Hadoop mapreduce自定义分区HashPartitioner
本文发表于本人博客. 在上一篇文章我写了个简单的WordCount程序,也大致了解了下关于mapreduce运行原来,其中说到还可以自定义分区.排序.分组这些,那今天我就接上一次的代码继续完善实现自定 ...
2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Spark自定义分区(Partitioner)
我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景.但是有些情况下,Spark内部不能符合咱们的需求 ...

随机推荐

Linux下安装php环境并且配置Nginx支持php-fpm模块[www]
Linux下安装php环境并且配置Nginx支持php-fpm模块 http://www.cnblogs.com/freeweb/p/5425554.html 5分钟搭建 nginx +php --- ...
Oracle基础 07 参数文件 pfile/spfile
--查看数据库运行模式(spfile还是pfile)select decode(count(*),1,'spfile','pfile') from v$spparameterwhere rownum= ...
BZOJ1003: [ZJOI2006] 物流运输 trans
物流运输--看了神犇的题解,就是dp+最短路,设f[i]为1~i天的最少花费,那么 dp[i]=min(cost[1,i],min{dp[j]+cost[j+1,i]+K,1≤j<i}) 就是从 ...
python memcache操作-安装、连接memcache
安装memecache wget http://memcached.org/latest tar -zxvf memcached-1.x.x.tar.gz cd memcached-1.x.x ./c ...
[ Openstack ] Openstack-Mitaka 高可用之网络服务(Neutron)
目录 Openstack-Mitaka 高可用之概述 Openstack-Mitaka 高可用之环境初始化 Openstack-Mitaka 高可用之 Mariadb-Galera集群 ...
[ Python - 4 ] python 装饰器
装饰器有很多经典的使用场景,例如插入日志.性能测试.事务处理等等,有了装饰器,就可以提取大量函数中与本身功能无关的类似代码,从而达到代码重用的目的. 装饰器有两种写法: 1. 装饰器不传参数 2. 装 ...
使用 .NET Core 的日志记录
如何使用 Microsoft.Extensions.Logging public static void Main(string[] args = null) { ILoggerFactory ...
Delphi2007新功能 -- 有限的栈对象
今天使用Delphi2007,一个误输入,无意中发现Delphi2007的record类型居然能够和TObject一样定义方法和属性,而且不需要调用类似TObject.Create方法就能生成一个re ...
《Java编程思想》笔记第十六章数组
1 数组数组和容器比较,数组的优点也只剩访问效率高这一点了. 2 数组是第一级对象数组也是一个对象,和其他普通对象一样在堆中创建, int[ ] arr arr是数组的引用. 可以隐式创建数组对 ...
一步步疑难解析 —— Python 异步编程构建博客
声明:该项目学习资源主要来自廖雪峰的Python教程,参见 http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6 ...

在hadoop作业中自定义分区和归约

在hadoop作业中自定义分区和归约的更多相关文章

随机推荐

热门专题