Hadoop 分片、分组与排序

首先需要明确的是，hadoop里的key一定要是可排序的，要么key自身实现了WritableComparator接口，要么有一个排序类可以对key进行排序。如果key本身不实现WritableComparator接口，而是由另外的一个工具类（实现RawComparator接口）来提供排序的话，需要单独设置key的排序类：
job.setOutputKeyComparatorClass(XXX.class);
在map输出的时候，会进行分片，在片内再对key进行排序。分片的作用是确定分发到哪个reduce；排序的原因是为后一阶段的reduce的排序做好基础，以便归并排序的时候更快。
reduce端搜集到众多map节点的输出后，也会按照key进行排序。排序要么是根据提供的单独排序类，如果没有，则是要求key一定要实现WritableComparator接口，否则cast的时候会报异常。
我们写的reduce方法里，接收的参数中，value是一个迭代的值，框架把key

”相同“的k-v的v值，放在一个迭代器里。reduce方法的key参数，取得是第一个k-v的k值。key是否相同是由业务决定的，不像数字1=1这样的绝对比较。这个过程叫做分组。相同组内的k-v，由同一次的reduce方法处理。分组需要一个分组方法，来确定哪些k-v是一组的。分组方法比较的还是key的值。如果提供了单独的分组器，就使用单独的分组器来进行分组，否则默认行为就是进行key

的比较（key本身的compare方法或者单独的比较方法），比较一致的，就放在一个组里。有时候，key虽然不同，但是又希望它们在一个组里，此时，就需要单独提供一个分组方法了。由job.setOutputValueGroupingComparator（）方法设定。在这种key不相同，却在同一个组的时候，传递给我们写的reduce方法的key由于是取第一个k-v的k值，那么k的排序就显得很重要了。通过排序，将需要的k-v排在第一位，可以借此达到某些目的。如进行联查的时候。

例如：有两个文件，一个是city.txt，一个是person.txt，city里记录的是城市编号以及城市名称，以逗号分隔，person文件里记录的是城市编号与姓名，希望最终得到姓名-城市名称的结果。

这个方法有很多解，这里就举一个：想办法将同一城市的人包括该城市的名称放在一个组里，同时将城市名称放在第一位，那么在reduce端，取到第一个value就是城市的名称了，其余的就是人的姓名。

city.txt

1,gz

2,zh

3,dg

person.txt

1,lili

2,huangq

2,chaojie

3,pengming

3,duw

定义一个结构作为key：

CityPerson implements WritableComparator{

int cityId;

int flag;

}

约定city的flag=1，person的flag=0.

排序方法是flag=1的排在前面。

@Override
public int compareTo(CityPerson o) {

if(cityId==o.cityId){

//大的在前

if(flag>o.flag){ return -1; }

else if(flag<o.flag){ return 1; }

return 0;

}

return (cityId>o.cityId)?1:-1;

}

经过reduce端的最后排序，所以的k-v都排好了，而且，相同cityid的，flag=1的会排在前面。
由于此CityPerson的比较方法，已经不能用来分组了（相同cityid，不同flag的比较不为0，就不会放在一个组，而要求是cityid相同的需要放在一个组里），所以，需要单独提供一个分组器，
public class GroupComparator implements RawComparator<CityPerson>{
@Override
public int compare(CityPerson o1, CityPerson o2) {
if(o1.cityId==o2.cityId){
return 0;
}
return (o1.cityId>o2.cityId)?1:-1;
}
@Override
public int compare(byte[] arg0, int arg1, int arg2, byte[] arg3,
int arg4, int arg5) {
return 0;
}
}
只比较cityid。

Hadoop 分片、分组与排序的更多相关文章

Hadoop MapReduce 二次排序原理及其应用
关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ...
Hadoop基础-MapReduce的排序
Hadoop基础-MapReduce的排序作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MapReduce的排序分类 1>.部分排序部分排序是对单个分区进行排序,举个 ...
使用dataframe解决spark TopN问题：分组、排序、取TopN和join相关问题
package com.profile.mainimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.fu ...
Linq入门演练---(1)基本用法-分组，排序,内连接
这一节大家共同学习下LINQ的基本用法,主要包括LINQ的分组,排序,和内外连接. 1.分组基本语法: group element by key element 表示查询结果返回的元素,key表示 ...
mysql 分组内排序
mysql 分组内排序类似于 sqlserver over partition by 因为mysql中木有sqlserver over partition by这个函数,要从sqlserver ...
ROW_NUMBER() OVER()函数用法;(分组，排序），partition by
转载:https://www.cnblogs.com/alsf/p/6344197.html 1.row_number() over()排序功能: (1) row_number() over()分组排 ...
SAS 分组与排序
SAS 分组与排序 SAS对数据集进行操作时,经常需要在SET.MERGE.MODIFY或 UPDATE语句中使用分组数据.使用分组数据最基本的方法是使用BY 语句,其基本形式如下: BY 变量列表; ...
WPF DataGrid分组和排序
之前一直用的Dev的GridControl,控件自带分组排序啥的.今天试了下在wpf自带的Datagrid控件上实现分组和排序. Datagrid上实现这些功能主要用到CollectionViewSo ...
mongo 过滤查询条件后分组、排序
描述:最近业主有这么一个需求,根据集合中时间段进行过滤,过滤的时间时间段为日期类型字符串,需要根据某一日期进行截取后.进行分组,排序概述题目:根据createTime时间段做查询,然后以天进行分 ...
ROW_NUMBER() OVER()函数用法;(分组，排序），partition by (转)
1.row_number() over()排序功能: (1) row_number() over()分组排序功能: 在使用 row_number() over()函数时候,over()里头的分组以及排 ...

随机推荐

struts2的package和result的标签的属性
package的属性 1.name: 配置package元素时必须指定name属性,这是引用该包的唯一标识. 2.extends: 可选属性,指定该包继承的父包,子包可以从一个或多个父包中继承到拦截器 ...
java8 创建树结构的数据
private List<TreeNode> createTree(Integer pid, Map<Integer, List<SysPermission>> m ...
Note: Improving Restore Speed for Backup Systems that Use Inline Chunk-Based Deduplication
思路/方法 Measuring restore speed 提出了speed-factor,用以衡量存储速度. Container capping 限制恢复文件时使用的container个数,为了保证 ...
Element-ui Cascader 级联选择器同时返回 value 和 label
给 cascader 组件赋值一个别名 ref="cascaderAddr" <el-form-item label="部门" prop="or ...
洛谷P3803 【模板】多项式乘法（FFT）
P3803 [模板]多项式乘法(FFT) 题目背景这是一道FFT模板题题目描述给定一个n次多项式F(x),和一个m次多项式G(x). 请求出F(x)和G(x)的卷积. 输入输出格式输入格式: ...
【NOIP模拟赛】收银员（一道差分约束好题）
/* s[]表示最优方案的序列中的前缀和,那么s[23]就是最优方案由题意我们可以列出这样一些式子: s[i]+s[23]-s[16+i]>=a[i] (i-8<0) s[i]-s[i- ...
c语言指针，数组
指针:说简单点就是一个地址.例如int *p,p是个变量,里面放的是地址0x0000,同理,每一个指针,不管什么类型,都是地址,也就是空间都是4个字节(32位机). 以此类推,指针也有指向它的指针in ...
VMware Workstation 安装以及Linux虚拟机安装指北
最近有挺多小伙伴跟我说起虚拟机这个东西,所以,今天就给大家写一篇虚拟机安装使用指北吧. 虚拟机(英语:virtual machine),在计算机科学中的体系结构里,是指一种特殊的软件,可以在计算机平台 ...
洛谷 P1536 村村通（并查集）
嗯... 题目链接:https://www.luogu.org/problemnew/show/P1536 思路: 这道题可以看出是并查集的思想,然后用一个while嵌套一下,输入一条路的两个端点,就 ...
git教程5-webhook
运维需求许多存储系统(如:MySQL)提供慢查询日志帮助开发与运维人员定位系统存在的慢操作.所谓慢查询日志就是系统在命令执行前后计算每条命令的执行时间,当超过预设阈值,就将这条命令的相关信息(例如: ...

Hadoop 分片、分组与排序

Hadoop 分片、分组与排序的更多相关文章

随机推荐

热门专题