Hadoop mapreduce自定义分区HashPartitioner

本文发表于本人博客。

在上一篇文章我写了个简单的WordCount程序，也大致了解了下关于mapreduce运行原来，其中说到还可以自定义分区、排序、分组这些，那今天我就接上一次的代码继续完善实现自定义分区。

首先我们明确一下关于中这个分区到底是怎么样，有什么用处？回答这个问题先看看上次代码执行的结果，我们知道结果中有个文件(part-r-00000),这个文件就是所有的词的数量记录，这个时候有没什么想法比如如果我想把一些包含特殊的词放置单独的一个文件，其他我不关心的放置在另一个文件这样我就好查看方便多了，又比如如果是统计关于人的某些爱好那我是不是可以把童年的放置在一个文件，成年的放置在一个文件等等这样输出结果。是，这个倒是非常有用哦输出的结果就是最直接的了，那现在我们就来分析一下应该怎么搞怎么实现：

我们清楚，这个输出文件是由reduce端输出的，reduce端的数据是由map函数处理完通过shufflecopy至reduce端的，然而map端的输出数量会对于reduce输入的数量，那么map端会负责划分数据，在shuffle过程中有个步骤就是分区，我们先来看看上次代码中使用的分区类HashPartitioner，看代码：

public class HashPartitioner<K, V> extends Partitioner<K, V> {

  /** Use {@link Object#hashCode()} to partition. */

  public int getPartition(K key, V value,

                          int numReduceTasks) {

    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

  }

}

这里出现了个numReduceTasks变量，这个是由哪里过来的呢，那就得看谁调用了这个方法了，看：MapTask.java就可以看到其write方法调用了，然而这个方法的partitions参数是由：

jobContext.getNumReduceTasks();

觉得，那我们继续找下去这个变量是由mapred.reduce.tasks配置节点决定的默认是1。那现在我们虽然不知道(key.hashCode() & Integer.MAX_VALUE)值是多少但是%1我们可以知道结果就是0；现在我来继承这个类(也可继承其父类Partitioner<K, V>)重写其getPartition方法来实现分区，看下面自定义分区MyPartition代码：

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

/**

 * 自定义分区类

 * @author Liang

 *

 */

public class MyPartition extends HashPartitioner<Text, LongWritable> {

    @Override

    public int getPartition(Text key, LongWritable value, int numReduceTasks) {

        return key.toString().contains("luoliang") ? 0 : 1;

    }

}

上面重写getPartition函数，其中如果键中有字符串"luoliang"的键值就返回0否则其它返回1。执行后在(hdfs://hadoop-master:9000/mapreduce/output/)会有2个文件，一个是part-r-00000,一个是part-r-00001。part-r-00000对应的是条件key.toString().contains("luoliang")为真的！

注意先要在mian函数中加入：

job.setJarByClass(Test.class);

还需要更改：

job.setPartitionerClass(MyPartition.class);

job.setNumReduceTasks(2);

再把程序打包成jar.jar文件上传至服务器使用命令运行：

hadoop jar jar.jar

如果本地调试或者运行会报错必须打包至服务器运行，结果会生成有那下面2个文件如下：

part-r-00000

part-r-00001

这次先到这里。坚持记录点点滴滴！

Hadoop mapreduce自定义分区HashPartitioner的更多相关文章

Hadoop mapreduce自定义分组RawComparator
本文发表于本人博客. 今天接着上次[Hadoop mapreduce自定义排序WritableComparable]文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需 ...
Hadoop学习之路(6)MapReduce自定义分区实现
MapReduce自带的分区器是HashPartitioner 原理:先对map输出的key求hash值,再模上reduce task个数,根据结果,决定此输出kv对,被匹配的reduce任务取走. ...
【Hadoop】MapReduce自定义分区Partition输出各运营商的手机号码
MapReduce和自定义Partition MobileDriver主类 package Partition; import org.apache.hadoop.io.NullWritable; i ...
[Hadoop] - Mapreduce自定义Counter
在Hadoop的MR程序开发中,经常需要统计一些map/reduce的运行状态信息,这个时候我们可以通过自定义Counter来实现,这个实现的方式是不是通过配置信息完成的,而是通过代码运行时检查完成的 ...
Hadoop mapreduce自定义排序WritableComparable
本文发表于本人博客. 今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区.排序.分组.规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码 ...
Hadoop MapReduce自定义数据类型
一自定义数据类型的实现 1.继承接口Writable,实现其方法write()和readFields(), 以便该数据能被序列化后完成网络传输或文件输入/输出: 2.如果该数据需要作为主键key使用 ...
在hadoop作业中自定义分区和归约
当遇到有特殊的业务需求时,需要对hadoop的作业进行分区处理那么我们可以通过自定义的分区类来实现还是通过单词计数的例子,JMapper和JReducer的代码不变,只是在JSubmit中改变了设 ...
[MapReduce_8] MapReduce 中的自定义分区实现
0. 说明设置分区数量 && 编写自定义分区代码 1. 设置分区数量分区(Partition) 分区决定了指定的 Key 进入到哪个 Reduce 中分区目的:把相同的 Key ...
mapreduce自定义排序(map端1.4步)
3 3 3 2 3 1 2 2 2 1 1 1 -----------------期望输出 1 1 2 1 2 2 3 1 3 2 3 3 将以上数据进行排序,排序规则是:按照第一列升序排序,如果第一 ...

随机推荐

J2EE开发推荐工具
linux下安装pip以及导入第三方包
python有着强大的第三方库,数量很多且功能强大. 最原始的办法是在官网上下载压缩包,解压,然后运行setup.py来进行安装. 显然这种方法很繁琐,不方便.因此有了包管理工具. pip是一个包管理 ...
NodeJS-003-自动刷新
修改index.js之后,发现刷新浏览器,没有任何更改,需要关闭应用重新启动. 为了避免每次修改代码后要自动重启.通过安装supervisor来监控代码修改. 安装:npm install -g su ...
【RF库测试】DateTime库
术语说明: 1.Epoch指的是一个特定的时间:1970-01-01 00:00:00 UTC. 2.国际标准化组织的国际标准ISO 8601是日期和时间的表示方法,格式是 'YYYY-MM-DD h ...
Python 文件类型
Python的文件类型分为以下几种: 1. 源代码文件,也就是以 .py 为扩展名的文件,由 python 程序解释,不需要编译 2. 字节代码文件,python 源代码文件经过编译后生成的扩展名为 ...
Python2 与 Python3 区别
print 用法不同:在 Python2 中,print 用法为 print "Hello World"在 Python3 中,print 用法为 print("Hell ...
Unity随机Prefab，自动前往某点处理
对与U3D AI,看了下,自己做了小功能,以备后用啊! 一,在某区域随机产生某个对象 C# 文件名称为RadomAPoint.cs using UnityEngine; using System.C ...
关于MultiByteToWideChar与WideCharToMultiByte代码测试(宽字符与多字节字符的转换)以及字符串的转换代码测试
#pragma once #include <stdio.h> //getchar() #include <tchar.h> #include <stdlib.h> ...
MySQL 分组后取每组前N条数据
与oracle的 rownumber() over(partition by xxx order by xxx )语句类似,即:对表分组后排序创建测试emp表 1 2 3 4 5 6 7 8 9 ...
android 动画学习系列（一）
老师今天开始讲android的游戏,讲到了view和surfaceview 下面是view的演示部分 private Paint paint; //游戏里很少用double,都是用long priva ...

Hadoop mapreduce自定义分区HashPartitioner

Hadoop mapreduce自定义分区HashPartitioner的更多相关文章

随机推荐

热门专题