Hadoop之WritableComprale 排序

Hadoop只对key进行排序

排序是 MapReduce 框架中最重要的操作之一。Map Task 和 Reduce Task 均会对数据（按照 key）进行排序。

该操作属于 Hadoop 的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。

默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。对于 Map Task，它会将处理的结果暂时放到一个缓冲区

中，当缓冲区使用率达到一定阈值后，再对缓冲区中的数据进行一次排序，并将这些有序数据写到磁盘上，而当数据处理完毕

后，它会对磁盘上所有文件进行一次合并，以将这些文件合并成一个大的有序文件。对于 Reduce Task，它从每个 Map Task

上远程拷贝相应的数据文件，如果文件大小超过一定阈值，则放到磁盘上，否则放到内存中。如果磁盘上文件数目达到一定阈

值，则进行一次合并以生成一个更大文件；如果内存中文件大小或者数目超过一定阈值，则进行一次合并后将数据写到磁盘

上。当所有数据拷贝完毕后，Reduce Task 统一对内存和磁盘上的所有数据进行一次合并。

部分排序（区内排序）

MapReduce 根据输入记录的键对数据集排序。保证输出的每个文件内部排序。

//实现在每个分区文件内部进行有序输出

//排序的实体类需要实现WritableComparable  重写 compareTo方法

//让实体类作为key 即可

全排序

如何用 Hadoop 产生一个全局排序的文件？最简单的方法是使用一个分区。但该方法在

处理大型文件时效率极低，因为一台机器必须处理所有输出文件，从而完全丧失了

MapReduce 所提供的并行架构。

替代方案：首先创建一系列排好序的文件；其次，串联这些文件；最后，生成一个全局

排序的文件。主要思路是使用一个分区来描述输出的全局排序。例如：可以为上述文件创建

3 个分区，在第一分区中，记录的单词首字母 a-g，第二分区记录单词首字母 h-n, 第三分区

记录单词首字母 o-z。

//排序的实体类需要实现WritableComparable  重写 compareTo方法

public class PhoneDataSortBean implements WritableComparable<PhoneDataSortBean> {

    private long up;

    private long down;

    private long sum;

    @Override

    public String toString() {

        return up +

                "\t" + down +

                "\t" + sum;

    }

    public PhoneDataSortBean(long up, long down) {

        this.up = up;

        this.down = down;

        this.sum = up + down;

    }

    public PhoneDataSortBean() {

    }

    public long getUp() {

        return up;

    }

    public void setUp(long up) {

        this.up = up;

    }

    public long getDown() {

        return down;

    }

    public void setDown(long down) {

        this.down = down;

    }

    public long getSum() {

        return sum;

    }

    public void setSum(long sum) {

        this.sum = sum;

    }

    @Override

    public int compareTo(PhoneDataSortBean o) {

        //按照总流量排序

        return (int) (o.sum - this.sum);

    }

    @Override

    public void write(DataOutput dataOutput) throws IOException {

        dataOutput.writeLong(this.down);

        dataOutput.writeLong(this.up);

        dataOutput.writeLong(this.sum);

    }

    @Override

    public void readFields(DataInput dataInput) throws IOException {

        this.down = dataInput.readLong();

        this.up = dataInput.readLong();

        this.sum = dataInput.readLong();

    }

}

辅助排序：（GroupingComparator 分组）

Mapreduce 框架在记录到达 reducer 之前按键对记录排序，但键所对应的值并没有被排

序。甚至在不同的执行轮次中，这些值的排序也不固定，因为它们来自不同的 map 任务且

这些 map 任务在不同轮次中完成时间各不相同。一般来说，大多数 MapReduce 程序会避免

让 reduce 函数依赖于值的排序。但是，有时也需要通过特定的方法对键进行排序和分组等

以实现对值的排序。

二次排序

在自定义排序过程中，如果 compareTo 中的判断条件为两个即为二次排序。

本博客仅为博主学习总结，感谢各大网络平台的资料。蟹蟹!!

Hadoop之WritableComprale 排序的更多相关文章

2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Hadoop日记Day18---MapReduce排序分组
本节所用到的数据下载地址为:http://pan.baidu.com/s/1bnfELmZ MapReduce的排序分组任务与要求我们知道排序分组是MapReduce中Mapper端的第四步,其中分 ...
Hadoop shuffle与排序
Mapreduce为了确保每个reducer的输入都按键排序.系统执行排序的过程-----将map的输出作为输入传给reducer 称为shuffle.学习shuffle是如何工作的有助于我们理解ma ...
三种方法实现Hadoop(MapReduce)全局排序(1)
我们可能会有些需求要求MapReduce的输出全局有序,这里说的有序是指Key全局有序.但是我们知道,MapReduce默认只是保证同一个分区内的Key是有序的,但是不保证全局有序.基于此,本文提供三 ...
hadoop streaming字段排序介绍
我们在使用hadoop streaming的时候默认streaming的map和reduce的separator不指定的话,map和reduce会根据它们默认的分隔符来进行排序 map.reduce: ...
一起学Hadoop——二次排序算法的实现
二次排序,从字面上可以理解为在对key排序的基础上对key所对应的值value排序,也叫辅助排序.一般情况下,MapReduce框架只对key排序,而不对key所对应的值排序,因此value的排序经常 ...
Hadoop mapreduce自定义排序WritableComparable
本文发表于本人博客. 今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区.排序.分组.规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码 ...
hadoop MapReduce辅助排序解析
1.数据样本,w1.csv到w5.csv,每个文件数据样本2000条,第一列是年份从1990到2000随机,第二列数据从1-100随机,本例辅助排序目标是找出每年最大值,实际上结果每年最大就是100, ...
hadoop复合键排序使用方法
在hadoop中处理复杂业务时,需要用到复合键,复合不同于单纯的继承Writable接口,而是继承了 WritableComparable<T>接口,而实际上,WritableCompar ...

随机推荐

MFC OnPaint()函数中最先调用CDialog::OnPaint()和最后调用CDialog::OnPaint()的巨大区别
OnPaint()函数中最先调用CDialog::OnPaint()和最后调用CDialog::OnPaint()的巨大区别,如果没有注意这个问题就会出现无厘头式的绘图问题-- 效果就是出不来!在经过 ...
c# 计算字符串和文件的MD5值的方法
快速使用Romanysoft LAB的技术实现 HTML 开发Mac OS App,并销售到苹果应用商店中. <HTML开发Mac OS App 视频教程> 土豆网同步更新:http: ...
Qt使用第三方库3rdparty
简述在 Qt 中经常会用到第三方库,例如:FFmpeg.OpenCV 等.第三方库的使用比较简单,只需要一些基本的配置就可以搞定,一起来看看吧! 简述第三方库源代码库文件目标目录第三方库 ...
Delphi 的RTTI机制浅探3（超长，很不错）
转自:http://blog.sina.com.cn/s/blog_53d1e9210100uke4.html 目录========================================== ...
Windows完成端口编程
Windows完成端口编程目录一基本概念二 OVERLAPPED数据结构三完成端口的内部机制创建完成端口完成端口线程的工作原理线程间数据传递线程的安全退出一基本概念设备---wi ...
Qt的QWaitCondition（允许线程在一定条件下唤醒其他线程，这样对不间断上传可能比较适用）
对生产者和消费者问题的另一个解决办法是使用QWaitCondition,它允许线程在一定条件下唤醒其他线程.其中wakeOne()函数在条件满足时随机唤醒一个等待线程,而wakeAll()函数则在条件 ...
腾讯云直播录制遇到的bug
1.录制方式应用: 初始化方法 [[TXUGCRecordshareInstance] startCameraCustom:param preview:_showPlayerView]; ID ...
【canvas】基础练习二文字
demo1 fillText strokeText绘制文字 <!DOCTYPE html> <html lang="en"> <head> &l ...
利用POi3.8导出excel产生大量xml临时文件怎么办？
在实际项目中,经常会用到POI3.8来导出excel.而导出excel的时候,会因为残留大量以.xml结尾的文件而导致服务器存储空间急剧增长,最后导致系统挂了.为此,该怎么办呢? .xml后缀残留文件 ...
linux dll hell--链接库real name, soname, link name
DLL hell 是指 Windows 系统上动态库的新版本覆盖旧版本,且新版本不能兼容旧版本的问题. 例如:装新软件,但原有的软件运行不起来了. Linux 系统下也同样面临着和 Windows ...

Hadoop之WritableComprale 排序

Hadoop之WritableComprale 排序

部分排序（区内排序）

全排序

辅助排序：（GroupingComparator 分组）

二次排序

Hadoop之WritableComprale 排序的更多相关文章

随机推荐

热门专题