一起学Hadoop——TotalOrderPartitioner类实现全局排序

Hadoop排序，从大的范围来说有两种排序，一种是按照key排序，一种是按照value排序。如果按照value排序，只需在map函数中将key和value对调，然后在reduce函数中在对调回去。从小范围来说排序又分成部分排序，全局排序，辅助排序(二次排序)等。本文介绍如何在Hadoop中实现全局排序。

全局排序，就是说在一个MapReduce程序产生的输出文件中，所有的结果都是按照某个策略进行排序的，例如降序还是升序。MapReduce只能保证一个分区内的数据是key有序的，一个分区对应一个reduce，因此只有一个reduce就保证了数据全局有序，但是这样又不能用到Hadoop集群的优势。

对于多个reduce如何保证数据的全局排序呢？通常的做法是按照key值分区，通过MapReduce的默认分区函数HashPartition将不同范围的key发送到不同的reduce处理，例如一个文件中有key值从1到10000的数据，我们使用两个分区，将1到5000的key发送到partition1，然后由reduce1处理，5001到10000的key发动到partition2然后由reduce2处理，reduce1中的key是按照1到5000的升序排序，reduce2中的key是按照5001到10000的升序排序，这样就保证了整个MapReduce程序的全局排序。但是这样做有两个缺点：

1、当数据量大时会出现OOM。

2、会出现数据倾斜。

Hadoop提供TotalOrderPartitioner类用于实现全局排序的功能，并且解决了OOM和数据倾斜的问题。

TotalOrderPartitioner类提供了数据采样器，对key值进行部分采样，然后按照采样结果寻找key值的最佳分割点，将key值均匀的分配到不同的分区中。

TotalOrderPartitioner 类提供了三个采样器，分别是：

SplitSampler 分片采样器，从数据分片中采样数据，该采样器不适合已经排好序的数据
RandomSampler随机采样器，按照设置好的采样率从一个数据集中采样
IntervalSampler间隔采样机，以固定的间隔从分片中采样数据，对于已经排好序的数据效果非常好。

三个采样器都实现了K[] getSample(InputFormat<K,V> inf, Job job)方法，该方法返回的是K[]数组，数组中存放的是根据采样结果返回的key值，即分隔点，MapRdeuce就是根据K[]数组的长度N生成N-1个分区partition数量，然后按照分割点的范围将对应的数据发送到对应的分区中。

下面介绍使用TotalOrderPartitioner类实现全局排序的功能。代码如下：

Map类:

 public class TotalSortMap extends Mapper<Text, Text, Text, IntWritable> {

     @Override

     protected void map(Text key, Text value,

                        Context context) throws IOException, InterruptedException {

         context.write(key, new IntWritable(Integer.parseInt(key.toString())));

     }

 }

Reduce类:

 public class TotalSortReduce extends Reducer<Text, IntWritable, IntWritable, NullWritable> {

     @Override

     protected void reduce(Text key, Iterable<IntWritable> values,

                           Context context) throws IOException, InterruptedException {

         for (IntWritable value : values)

             context.write(value, NullWritable.get());

     }

 }

入口类：

 public class TotalSort extends Configured implements Tool{

     //实现一个Kye比较器，用于比较两个key的大小，将key由字符串转化为Integer，然后进行比较。

     public static class KeyComparator extends WritableComparator {

         protected KeyComparator() {

             super(Text.class, true);

         }

         @Override

         public int compare(WritableComparable writableComparable1, WritableComparable writableComparable2) {

             int num1 = Integer.parseInt(writableComparable1.toString());

             int num2 = Integer.parseInt(writableComparable2.toString());

             return num1 - num2;

         }

     }

     @Override

     public int run(String[] args) throws Exception {

         Configuration conf = new Configuration();

         conf.set("mapreduce.totalorderpartitioner.naturalorder", "false");

         Job job = Job.getInstance(conf, "Total Sort app");

         job.setJarByClass(TotalSort.class);

         //设置读取文件的路径，都是从HDFS中读取。读取文件路径从脚本文件中传进来

         FileInputFormat.addInputPath(job,new Path(args[0]));

         //设置mapreduce程序的输出路径，MapReduce的结果都是输入到文件中

         FileOutputFormat.setOutputPath(job,new Path(args[1]));

         job.setInputFormatClass(KeyValueTextInputFormat.class);

         //设置比较器，用于比较数据的大小，然后按顺序排序，该例子主要用于比较两个key的大小

         job.setSortComparatorClass(KeyComparator.class);

         job.setNumReduceTasks(3);//设置reduce数量

         job.setMapOutputKeyClass(Text.class);

         job.setMapOutputValueClass(IntWritable.class);

         job.setOutputKeyClass(IntWritable.class);

         job.setOutputValueClass(NullWritable.class);

         //设置保存partitions文件的路径

         TotalOrderPartitioner.setPartitionFile(job.getConfiguration(), new Path(args[2]));

         //key值采样，0.01是采样率，

         InputSampler.Sampler<Text, Text> sampler = new InputSampler.RandomSampler<>(0.01, 1000, 100);

         //将采样数据写入到分区文件中

         InputSampler.writePartitionFile(job, sampler);

         job.setMapperClass(TotalSortMap.class);

         job.setReducerClass(TotalSortReduce.class);

         //设置分区类。

         job.setPartitionerClass(TotalOrderPartitioner.class);

         return job.waitForCompletion(true) ? 0 : 1;

     }

     public static void main(String[] args)throws Exception{

         int exitCode = ToolRunner.run(new TotalSort(), args);

         System.exit(exitCode);

     }

 }

生成测试数据的代码如下：

 #!/bin/bash

 do

 for k in $(seq  )

 echo $RANDOM;

 done

将上面代码保存成create_data.sh，然后执行

sh create_data.sh > test_data.txt

会生成一个test_data.txt的文本文件，文本中的内容是一行一个随机数字

将test_data.txt上传到HDFS中：

hadoop fs -put test_data.txt /data/

将上面的实现全局排序的代码打成一个jar包，然后通过shell文件执行。

执行MapReduce代码的脚本如下：

 /usr/local/src/hadoop-2.6./bin/hadoop jar TotalSort.jar \

 hdfs://hadoop-master:8020/data/test_data1.txt \

 hdfs://hadoop-master:8020/total_sort_output \

 hdfs://hadoop-master:8020/total_sort_partitions

看下运行结果，我们只需要看part-r-00000的尾10行和part-r-00001的头10行数据，只要它们收尾相接就证明是全局有序的：

下面有几个坑要注意，大家不要踩：

数据的输入类型必须使用KeyValueTextInputFormat类而不是TextInputFormat类，因为hadoop采样器是对key值采样，而TextInputFormat的key是位置偏移量，value存放的是每行的输入数据，对该key采样没有任何意义。KeyValueTextInputFormat的key存放的是输入数据，对key采样才能更好的划分分区。用法：
```
job.setInputFormatClass(KeyValueTextInputFormat.class);
```
使用代码conf.set("mapreduce.totalorderpartitioner.naturalorder", "false")设置分区的排序策略，否则是每个分区内有序，而不是全局有序。
采样器只能是Text,Text类型：InputSampler.Sampler<Text, Text>，否则会报Exception in thread "main" java.io.IOException: wrong key class: org.apache.hadoop.io.Text is not class org.apache.hadoop.io.LongWritable这个错误。
job.setMapOutputKeyClass(Text.class)和job.setMapOutputValueClass(IntWritable.class)这两行代码必须在InputSampler.Sampler<Text, Text> sampler = new InputSampler.RandomSampler<>(0.01, 1000, 100);这行代码之前调用，否则会报Exception in thread "main" java.io.IOException: wrong key class: org.apache.hadoop.io.Text is not class org.apache.hadoop.io.LongWritable错误。
调用setSortComparatorClass方法设置排序类，对key进行排序。job.setSortComparatorClass(KeyComparator.class);类似例子中的KeyComparator类。否则是按照字典序进行排序。MapReduce默认输出的key是字符类型时，默认是按照字典序排序。

一起学Hadoop——TotalOrderPartitioner类实现全局排序的更多相关文章

Hadoop对文本文件的快速全局排序
一.背景 Hadoop中实现了用于全局排序的InputSampler类和TotalOrderPartitioner类,调用示例是org.apache.hadoop.examples.Sort. 但是当 ...
MapReduce TotalOrderPartitioner 全局排序
我们知道Mapreduce框架在feed数据给reducer之前会对map output key排序,这种排序机制保证了每一个reducer局部有序,hadoop 默认的partitioner是Has ...
三种方法实现Hadoop(MapReduce)全局排序(1)
我们可能会有些需求要求MapReduce的输出全局有序,这里说的有序是指Key全局有序.但是我们知道,MapReduce默认只是保证同一个分区内的Key是有序的,但是不保证全局有序.基于此,本文提供三 ...
一起学Hadoop——使用自定义Partition实现hadoop部分排序
排序在很多业务场景都要用到,今天本文介绍如何借助于自定义Partition类实现hadoop部分排序.本文还是使用java和python实现排序代码. 1.部分排序. 部分排序就是在每个文件中都是有序 ...
Hadoop的partitioner、全排序
按数值排序示例:按气温字段对天气数据集排序问题:不能将气温视为Text对象并以字典顺序排序正统做法:用顺序文件存储数据,其IntWritable键代表气温,其Text值就是数据行常用简单做法:首先, ...
MapReduce怎么优雅地实现全局排序
思考想到全局排序,是否第一想到的是,从map端收集数据,shuffle到reduce来,设置一个reduce,再对reduce中的数据排序,显然这样和单机器并没有什么区别,要知道mapreduce框 ...
[大牛翻译系列]Hadoop（6）MapReduce 排序：总排序（Total order sorting）
4.2.2 总排序(Total order sorting) 有的时候需要将作业的的所有输出进行总排序,使各个输出之间的结果是有序的.有以下实例: 如果要得到某个网站中最受欢迎的网址(URL),就需要 ...
Mapreduce的排序（全局排序、分区加排序、Combiner优化）
一.MR排序的分类 1.部分排序:MR会根据自己输出记录的KV对数据进行排序,保证输出到每一个文件内存都是经过排序的: 2.全局排序: 3.辅助排序:再第一次排序后经过分区再排序一次: 4.二次排序: ...
大数据mapreduce全局排序top-N之python实现
a.txt.b.txt文件如下: a.txt hadoop hadoop hadoop hadoop hadoop hadoop hadoop hadoop hadoop hadoop hadoop ...

随机推荐

strncpy的用法
strncpy是C语言的库函数之一,来自C语言标准库,定义于string.h,函数原型是: char *strncpy(char* dest,char* src,size_t n); 把src所指向的 ...
JUnit3 和 JUnit4的区别
JUnit3 和 JUnit4的区别 1.JUnit 4使用org.junit.*包而JUnit 3.8使用的是junit.Framework.*;为了向后兼容,JUnit4发行版中加入了这两种包. ...
转-4年！我对OpenStack运维架构的总结
4年!我对OpenStack运维架构的总结原创: 徐超云技术之家今天前言应“云技术社区”北极熊之邀,写点东西.思来想去云计算范畴实在广泛,自然就聊点最近话题异常火热,让广大云计算从业者爱之深 ...
生产环境优雅的重启基于Nginx、Tornado的Web服务进程
Nginx是一个高效的Web服务器及代理服务器,Tornado是一个基于epoll的异步Web开发框架,通常使用Nginx做为Web服务器时,都会以FastCGI模式,而我们从开发.调试.运维的角度考 ...
Linux下的启动oracle的EM的命令
Linux下的启动oracle的EM的命令 1.启动数据库 su - oracle $sqlplus / as sysdba sql>startup 2.启动监听 $lsnrctl LSNRCT ...
Vue.extend和Vue.component的联系与差异
extend 是构造一个组件的语法器. 你给它参数他给你一个组件然后这个组件你可以作用到Vue.component 这个全局注册方法里, 也可以在任意vue模板里使用apple组件 var ap ...
ES6之Set与Map加深理解
Set 类似于数组,但是成员的值都是唯一的,没有重复的值,有序. Set函数可以接受一个数组(或者具有 iterable 接口的其他数据结构)作为参数,用来初始化. 用途数组去重: [...new ...
python垃圾回收机制:引用计数 VS js垃圾回收机制:标记清除
js垃圾回收机制:标记清除 Js具有自动垃圾回收机制.垃圾收集器会按照固定的时间间隔周期性的执行. JS中最常见的垃圾回收方式是标记清除. 工作原理当变量进入环境时,将这个变量标记为"进入 ...
【linux】环境变量配置
假设要添加环境变量 JAVA_HOME 1.先用自己的个人账号 vim /etc/profile 在文件末尾添加 export JAVA_HOME=/usr/java/jdk1..0_144 2. s ...
laravel CSRF 保护
在开始之前让我们来实现上述表单访问伪造的完整示例,为简单起见,我们在路由闭包中实现所有业务代码: Route::get('task/{id}/delete', function ($id) { ret ...

一起学Hadoop——TotalOrderPartitioner类实现全局排序

一起学Hadoop——TotalOrderPartitioner类实现全局排序的更多相关文章

随机推荐

热门专题