hadoop提交作业自定义排序和分组

现有数据如下：

3 3

3 2

3 1

2 2

2 1

1 1

要求为：

先按第一列从小到大排序，如果第一列相同，按第二列从小到大排序

如果是hadoop默认的排序方式，只能比较key，也就是第一列，而value是无法参与排序的

这时候就需要用到自定义的排序规则

解决思路：

自定义数据类型，将原本的key和value都包装进去

将这个数据类型当做key，这样就比较key的时候就可以包含第一列和第二列的值了

自定义数据类型NewK2如下：

//要实现自定义的排序规则必须实现WritableComparable接口，泛型参数为类本身

	public class NewK2 implements WritableComparable<NewK2> {

		//代表第一列和第二列的数据

		Long first;

		Long second;

		public NewK2() {

		}

		public NewK2(long first, long second) {

			this.first = first;

			this.second = second;

		}

		//重写序列化和反序列化方法

		@Override

		public void readFields(DataInput in) throws IOException {

			this.first = in.readLong();

			this.second = in.readLong();

		}

		@Override

		public void write(DataOutput out) throws IOException {

			out.writeLong(first);

			out.writeLong(second);

		}

		//当k2进行排序时，会自动调用该方法. 当第一列不同时，升序；当第一列相同时，第二列升序

		//如果希望降序排列，那么只需要对调this对象和o对象的顺序

		@Override

		public int compareTo(NewK2 o) {

			if(this.first != o.first)

			{

				return (int)(this.first - o.first);

			}

			else

			{

				return (int) (this.second - o.second);

			}

		}

		//重写hashCode和equals方法

		@Override

		public int hashCode() {

			return this.first.hashCode() + this.second.hashCode();

		}

		@Override

		public boolean equals(Object obj) {

			if (!(obj instanceof NewK2)) {

				return false;

			}

			NewK2 oK2 = (NewK2) obj;

			return (this.first == oK2.first) && (this.second == oK2.second);

		}

	}

MyMapper类代码：

public class MyMapper extends

			Mapper<LongWritable, Text, NewK2, LongWritable> {

		protected void map(

				LongWritable key,

				Text value,

				org.apache.hadoop.mapreduce.Mapper<LongWritable, Text, NewK2, LongWritable>.Context context)

				throws java.io.IOException, InterruptedException {

			final String[] splited = value.toString().split("\t");

			//分割完成之后的数据如：3,1  分别赋值给k2对象的first和second属性

			final NewK2 k2 = new NewK2(Long.parseLong(splited[0]),

					Long.parseLong(splited[1]));

			final LongWritable v2 = new LongWritable(Long.parseLong(splited[1]));

			//将k2当做key输出，这样在排序的时候就会调用NewK2的compareTo方法，里面写的是我们自己的排序规则

			context.write(k2, v2);

		};

	}

MyReducer类代码：

public class MyReducer extends

			Reducer<NewK2, LongWritable, LongWritable, LongWritable> {

		protected void reduce(

				NewK2 k2,

				java.lang.Iterable<LongWritable> v2s,

				org.apache.hadoop.mapreduce.Reducer<NewK2, LongWritable, LongWritable, LongWritable>.Context context)

				throws java.io.IOException, InterruptedException {

			context.write(new LongWritable(k2.first), new LongWritable(

					k2.second));

		};

	}

MySubmit类的代码和之前的一样无需改动

运行可得到结果如下图：

如果业务需求又发生了改变，如：上图结果中，第一列相同的，只要列出第二列的值最小的那个选项即可

那么结果应该为

1 1

2 1

3 1

可是我们之前使用的是自定义的数据类型当做key

而hadoop默认的分组策略是所有key相同的选项当做一组

而两个NewK2对象要相等，就必须要first和second属性都相等才行

这时就需要用到自定义的分组策略

自定义分组类如下：

//自定义的分组类必须实现RawComparator，泛型参数为类本身

	public class MyGroupingComparator implements RawComparator<NewK2> {

		//重写两个比较方法

		//按对象进行比较，规定只要两个NewK2对象的first属性相同就视为相等

		@Override

		public int compare(NewK2 o1, NewK2 o2) {

			return (int) (o1.first - o2.first);

		}

		/**

		 * @param arg0

		 *            表示第一个参与比较的字节数组

		 * @param arg1

		 *            表示第一个参与比较的字节数组的起始位置

		 * @param arg2

		 *            表示第一个参与比较的字节数组的偏移量

		 *

		 * @param arg3

		 *            表示第二个参与比较的字节数组

		 * @param arg4

		 *            表示第二个参与比较的字节数组的起始位置

		 * @param arg5

		 *            表示第二个参与比较的字节数组的偏移量

		 */

		@Override

		public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,

				int arg4, int arg5) {

			return WritableComparator

					.compareBytes(arg0, arg1, 8, arg3, arg4, 8);

		}

	}

在MySubmit代码中加入设置分组策略

// 1.4 TODO 排序、分区

		job.setGroupingComparatorClass(MyGroupingComparator.class);

再次运行程序可得到如下图的结果：

hadoop提交作业自定义排序和分组的更多相关文章

Hadoop提交作业流程
一 .需要知道的内容 1.ResourceManager ------>yarn的老大 2.NodeManager ------>yarn的小弟 3.ResourceMana ...
2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Hadoop mapreduce自定义排序WritableComparable
本文发表于本人博客. 今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区.排序.分组.规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码 ...
Hadoop学习笔记—11.MapReduce中的排序和分组
一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排 ...
Hadoop学习之自定义二次排序
一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排 ...
Hadoop学习之路(7)MapReduce自定义排序
本文测试文本: tom 20 8000 nancy 22 8000 ketty 22 9000 stone 19 10000 green 19 11000 white 39 29000 socrate ...
Hadoop【MR的分区、排序、分组】
[toc] 一.分区问题:按照条件将结果输出到不同文件中自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Pa ...
eclipse 提交作业到JobTracker Hadoop的数据类型要求必须实现Writable接口
问:在eclipse中的写的代码如何提交作业到JobTracker中的哪?答:(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect() ...
自定义排序及Hadoop序列化
自定义排序将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...

随机推荐

Linux终端彩色打印+终端进度条【转】
转自:https://my.oschina.net/jcseg/blog/178047 开发的一个应用程序选择了终端界面, 为了使软件稍微好看些, 研究下Linux终端的彩色打印, 并且基于这个彩色打 ...
appium===安卓SDK下载很慢的解决办法
方法一:http://www.apkbus.com/forum.php?mod=viewthread&tid=240851 方法二:http://www.androiddevtools.cn/
【LA3461】Leonardo的笔记本
白书例题. #include<bits/stdc++.h> using namespace std; ],vis[],cnt[]; inline int read(){ ,x=;char ...
krpano--控制热点跳转到场景的指定视角
krpano课堂(肥宗) · 2015-07-13 19:32 有这么一种情况,假设我们用三个场景,这三个场景恰好是一条街道的同一方向的三个拍摄点.如上图. 我们可以通过设置A.B.C三个场景中的vi ...
hdu 5185(动态规划)
Equation Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Su ...
hdu 5167(dfs)
Fibonacci Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total S ...
洛谷 P1182 数列分段`Section II`【二分答案】
[代码]: #include<bits/stdc++.h> const double eps = 1e-8; const int maxn = 1e6+5; #define inf 0x3 ...
CF 1006C Three Parts of the Array【双指针/前缀和/后缀和/二分】
You are given an array d1,d2,-,dn consisting of n integer numbers. Your task is to split this array ...
openssl生成证书链多级证书
操作系统CentOS6.6 注:windows版本的Openssl无法做这个实验,由于所有编译的window版本openssl没有对openssl目录重新定向,导致在windows下找不到pki目录 ...
差分+树状数组线段树【P2357】守墓人
题目描述-->p2357 守墓人敲了一遍线段树,水过. 树状数组分析主要思路: 差分简单介绍一下差分(详细概念太麻烦,看下面. 给定一个数组 7 8 6 5 1 8 18 20 35 // ...

hadoop提交作业自定义排序和分组

hadoop提交作业自定义排序和分组的更多相关文章

随机推荐

热门专题