Hadoop【MR的分区、排序、分组】

[toc]

一.分区

问题：按照条件将结果输出到不同文件中

自定义分区步骤

1.自定义继承Partitioner类，重写getPartition()方法

2.在job驱动Driver中设置自定义的Partitioner

3.在Driver中根据分区数设置reducetask数

分区数和reducetask关系

案例实操

将统计结果按照手机归属地不同省份输出到不同文件中（分区）,手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中

(1)自定义分区类

MyPartitioner.class

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Partitioner;

public class MyPartioner extends Partitioner<Text, FlowBean> {

    @Override

    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {

        String phone = text.toString();

        if (phone.startsWith("136")) {

            return 0;

        } else if (phone.startsWith("137")) {

            return 1;

        } else if (phone.startsWith("138")) {

            return 2;

        }else if (phone.startsWith("139")){

            return 3;

        }else {

            return 4;

        }

    }

}

(2)在Driver类设置分区和reducetask数

//设置自定义partitioner

job.setPartitionerClass(MyPartioner.class);

//设置reducetask数量

job.setNumReduceTasks(5);

二.全排序、分区排序、分组

当自定义的对象作为key，按照指定条件进行排序

实现排序的2种方式

1.对象实现WritableComparable接口

实现WritableComparable接口，重写compareTo方法，就可以实现排序（二次排序）

public class OrderBean implements WritableComparable<OrderBean> { 

    //自定义排序，先按pid升序，再按pname降序

    @Override

    public int compareTo(OrderBean o) {

        int compare = this.pid.compareTo(o.pid);

        if (compare == 0) {

            return -this.pname.compareTo(o.pname);

        }

        return compare;

    }

}

2.继承WritableComparator类

自定义比较器继承WritableComparator类，父类构造方法增加需要比较的Bean对象，

//继承WritableComparator类

public class MyGroupCompartor extends WritableComparator {

    public MyGroupCompartor(){

		//增加Bean对象

        super(OrderBean.class,true);

    }

	// 对Bean的排序方法

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean oa = (OrderBean) a;

        OrderBean ob = (OrderBean) b;

        return oa.getPid().compareTo(ob.getPid());

    }

}

全排序

不分区，只有一个reducetask，针对Key进行排序

分区排序

针对key全排序，然后针对key进行分区

辅助排序【自定义分组】

分析：已经对key进行排序，比如key对象为OrderBean的排序是id，pname的二次排序

，在进入reduce()的分组希望是id相同的进入一组，那么就需要自定义分组针对id进行分组

OrderBean

id		pname  amount

1		小米

1				 2400

1            1500

2		华为

2				2400

2           3400

自定义分组比较器

MyGroupCompartor.class

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

public class MyGroupCompartor extends WritableComparator {

    public MyGroupCompartor(){

        super(OrderBean.class,true);

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        OrderBean oa = (OrderBean) a;

        OrderBean ob = (OrderBean) b;

        return oa.getPid().compareTo(ob.getPid());

    }

}

在Driver类中声明自定义分组

job.setGroupingComparatorClass(MyGroupCompartor.class);

Hadoop【MR的分区、排序、分组】的更多相关文章

Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Hadoop Mapreduce分区、分组、二次排序
1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partiti ...
Hadoop Mapreduce分区、分组、二次排序过程详解
转载:http://blog.tianya.cn/m/post.jsp?postId=53271442 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了 ...
Hadoop日记Day18---MapReduce排序分组
本节所用到的数据下载地址为:http://pan.baidu.com/s/1bnfELmZ MapReduce的排序分组任务与要求我们知道排序分组是MapReduce中Mapper端的第四步,其中分 ...
9.2.3 hadoop reduce端连接-分区分组聚合
1.1.1 reduce端连接-分区分组聚合 reduce端连接则是利用了reduce的分区功能将stationid相同的分到同一个分区,在利用reduce的分组聚合功能,将同一个st ...
【Hadoop】Hadoop MR 自定义分组 Partition机制
1.概念 2.Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3.代码示例 FlowBean package com.ares.hadoop.mr.flowgroup; ...
【Hadoop】Hadoop MR 自定义排序
1.概念 2.代码示例 FlowSort package com.ares.hadoop.mr.flowsort; import java.io.IOException; import org.apa ...
Hadoop MapReduce 二次排序原理及其应用
关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ...

随机推荐

(转载)gcc -l参数和-L参数
-l参数就是用来指定程序要链接的库,-l参数紧接着就是库名,那么库名跟真正的库文件名有什么关系呢?就拿数学库来说,他的库名是m,他的库文件名是libm.so,很容易看出,把库文件名的头lib和尾.so ...
Atcoder 题目泛做
我思维越来越菜了,这样下去感觉要退役了. 听说Atcoder的题练思维?那就试着做一做吧. 坚持每天一两道吧.(很有可能咕掉.) AGC036 官方题解 ---A-Triangle ...
『学了就忘』Linux基础 — 17、远程服务器关机及重启时的注意事项
目录 1.为什么远程服务器不能关机 2.远程服务器重启时需要注意两点 3.不要在服务器访问高峰运行高负载命令 4.远程配置防火墙时不要把自己踢出服务器 5.指定合理的密码规范并定期更新 6.合理分配权 ...
css三大特性 & 选择器的权重
层叠性层叠性是指当一个标签被设置了多个重复的样式的时候会发生冲突,一个属性会覆盖另外一个属性. 覆盖性原则: 层叠性主要遵循的原则是就近原则,在不考虑优先级的情况下,在多个样式中最终生效的样式是离标 ...
vue自定义指令实例使用（实例说明自定义指令的作用）
在写vue项目的时候,我们经常需要对后台返回的数据进行大量的渲染操作,其中就包含了大量的对特殊数据的进一步处理,比如说时间戳.图片地址.特殊数据显示等等特殊数据处理改进. 其实遇到这种情况,通过Vue ...
blazor wasm开发chrome插件
用blazor(Wasm)开发了一个chrome插件感觉效率挺高的,分享给大家先简单介绍下WebAssembly的原理: "WebAssembly是一种用于基于堆栈的虚拟机的二进制指令格式 ...
面试官:咱们来聊一聊mysql主从延迟
背景前段时间遇到一个线上问题,后来排查好久发现是因为主从同步延迟导致的,所以今天写一篇文章总结一下这个问题希望对你有用.如果觉得还不错,记得加个关注点个赞哦思维导图思维导图常见的主从架构随着 ...
[cf1458C]Latin Square
维护$n^{2}$个三元组$(x,y,z)$,每一个三元组描述$a_{x,y}=z$ 对于RLDU这四个操作,即将所有三元组的$x$或$y$执行$\pm 1$(模$n$意义下) 对于IC这两个操作,即 ...
[loj6203]可持久化队列
对于每一个节点,我们只需要知道他上len次插入(len是这个队列的元素个数)时所插入的元素就可以了那么只需要将所有插入建为一棵树,然后找len次祖先就可以了,这个用倍增维护即可还有一种比较神奇的做 ...
Scrum精髓读书笔记
Scrum精髓四 . Sprint Sprint的定义 Scrum在最长一个月的迭代或周期中安排工作,一般为2个星期,这些迭代或周期称为Sprint Sprint提供基本的Scrum骨架,大多数其他 ...