[大牛翻译系列]Hadoop（6）MapReduce 排序：总排序（Total order sorting）

4.2.2 总排序（Total order sorting）

有的时候需要将作业的的所有输出进行总排序，使各个输出之间的结果是有序的。有以下实例：

如果要得到某个网站中最受欢迎的网址（URL），就需要根据某种受欢迎的指标来对网址进行排序。
如果要让最活跃的用户能够看到某张表，就需要根据某种标准（发表文章数）对用户进行排序。

技术22 在多个reduce间对键进行排序

在MapReduce框架中，map的输出会被排序，然后被发送给reduce。不过，相同reduce的输入数据是有序的，不同reduce的输入数据就没有顺序关系了。如果要让不同的reduce的数据也存在顺序关系，就需要使用分区器（partitioner）。MapReduce的默认分区器是HashPartitioner。它使用map的输出键的哈希值进行分区。这保证了相同的map输出键的所有记录会到达同一个reduce。不过HashPartitioner并不会对所有map的全部输出键进行总排序。接下来说明如何在MapReduce中对所有map的全部输出键进行排序：

问题

需要对作业输出的所有键进行总排序，但是不能增加任何一个reduce的负担。

方案

这里要用到TotalOrderPartitioner类来保证所有reduce的全部输出是有序的。这个类由Hadoop自带。这个分类器保证了所有map的全部输出是完全有序的。那么只要reduce的输出键和输入键是一样的，作业的最终输出就是有序的。

讨论

TotalOrderPartitioner是Hadoop的内置分区器。它根据分区文件进行分区。分区文件是一个包括N-1个键的预先计算好的序列文件。（N是指reduce的个数。）分区文件中的键的顺序是由map输出键比较器决定的。每一个键对应着一个逻辑区间。TotalOrderPartitioner检查每一个输出键，确定它在那个区间，然后将这个键发送给相对应的reduce。

图4.15中说明了这个技术的两个部分。第一部分，创建分区文件。第二部分，将TotalOrderPartitioner加入MapReduce作业。

先用InputSampler从输入文件中抽样，以生成分区文件。抽样器可以选用RandomSampler类进行随机抽样，也可以选用IntervalSampler类进行间距为R的等距抽样。生成的分区文件中将包含有序的N-1个键。N是reduce的个数。InputSampler不是MapReduce作业。它从InputFormat读取数据。它在被调用的过程中生成分区。

下列代码说明了在调用InputSampler函数之前需要完成的步骤：

 int numReducers = ;

 Path input = new Path(args[]);

 Path partitionFile = new Path(args[]);

 InputSampler.Sampler<Text, Text> sampler = new InputSampler.RandomSampler<Text,Text>(0.1, , );

 JobConf job = new JobConf();

 job.setNumReduceTasks(numReducers);

 job.setInputFormat(KeyValueTextInputFormat.class);

 job.setMapOutputKeyClass(Text.class);

 job.setMapOutputValueClass(Text.class);

 TotalOrderPartitioner.setPartitionFile(job, partitionFile);

 FileInputFormat.setInputPaths(job, input);

 InputSampler.writePartitionFile(job, sampler);

下一步在作业中指定TotalOrderPartitioner为分区器：

 job.setPartitionerClass(TotalOrderPartitioner.class);

这个技术并不需要修改MapReduce作业本身，也就是说，不需要修改map或reduce过程。现在就可以开始运行代码了：

$ hadoop fs -put test-data/names.txt names.txt

$ bin/run.sh com.manning.hip.ch4.sort.total.TotalSortMapReduce \

    names.txt \

    large-names-sampled.txt \

    output

$ hadoop fs -ls output

/user/aholmes/output/part-00000

/user/aholmes/output/part-00001

$ hadoop fs -cat output/part-00000 | head

AABERG

AABY

AADLAND

$ hadoop fs -cat output/part-00000 | tail

LANCZ

LAND

LANDA

$ hadoop fs -cat output/part-00001 | head

LANDACRE

LANDAKER

LANDAN

$ hadoop fs -cat output/part-00001 | tail

ZYSK

ZYSKOWSKI

ZYWIEC

从MapReduce作业的结果中可以看到，在各个输出文件之间，map的输出键是有序的。

小结

这个技术中使用InputSampler来创建分区文件。TotalOrderPartitioner使用这个分区文件来分区map的输出键。

MapReduce也可以生成分区文件，但效率不高。另一个有效的的方法就是用自定义的InputFormat类来执行抽样，并将抽样后的键发送给一个reduce，由其创建分区文件。这也就是这一章下一个部分讲到的抽样。

[大牛翻译系列]Hadoop（6）MapReduce 排序：总排序（Total order sorting）的更多相关文章

[大牛翻译系列]Hadoop（5）MapReduce 排序：次排序（Secondary sort）
4.2 排序(SORT) 在MapReduce中,排序的目的有两个: MapReduce可以通过排序将Map输出的键分组.然后每组键调用一次reduce. 在某些需要排序的特定场景中,用户可以将作业( ...
[大牛翻译系列]Hadoop 翻译文章索引
原书章节原书章节题目翻译文章序号翻译文章题目链接 4.1 Joining Hadoop(1) MapReduce 连接:重分区连接(Repartition join) http://www.c ...
[大牛翻译系列]Hadoop（16）MapReduce 性能调优：优化数据序列化
6.4.6 优化数据序列化如何存储和传输数据对性能有很大的影响.在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能. 压缩压缩是Hadoop优化的重要部分.通过压缩可以减少作业输出数 ...
[大牛翻译系列]Hadoop（10）MapReduce 性能调优：诊断reduce性能瓶颈
6.2.3 Reduce的性能问题 Reduce的性能问题有和map类似的方面,也有和map不同的方面.图6.13是reduce任务的具体的执行各阶段,标识了可能影响性能的区域. 这一章将介绍影响re ...
[大牛翻译系列]Hadoop（4）MapReduce 连接：选择最佳连接策略
4.1.4 为你的数据选择最佳连接策略已介绍的每个连接策略都有不同的优点和缺点.那么,怎么来判断哪个最适合待处理的数据? 图4.11给出了一个决策树.这个决策树是于论文<A Compariso ...
[大牛翻译系列]Hadoop（13）MapReduce 性能调优：优化洗牌（shuffle）和排序阶段
6.4.3 优化洗牌(shuffle)和排序阶段洗牌和排序阶段都很耗费资源.洗牌需要在map和reduce任务之间传输数据,会导致过大的网络消耗.排序和合并操作的消耗也是很显著的.这一节将介绍一系列 ...
[大牛翻译系列]Hadoop（19）MapReduce 文件处理：基于压缩的高效存储（二）
5.2 基于压缩的高效存储(续) (仅包括技术27) 技术27 在MapReduce,Hive和Pig中使用可分块的LZOP 如果一个文本文件即使经过压缩后仍然比HDFS的块的大小要大,就需要考虑选择 ...
[大牛翻译系列]Hadoop（18）MapReduce 文件处理：基于压缩的高效存储（一）
5.2 基于压缩的高效存储 (仅包括技术25,和技术26) 数据压缩可以减小数据的大小,节约空间,提高数据传输的效率.在处理文件中,压缩很重要.在处理Hadoop的文件时,更是如此.为了让Hadoop ...
[大牛翻译系列]Hadoop（3）MapReduce 连接：半连接（Semi-join）
4.1.3 半连接(Semi-join) 假设一个场景,需要连接两个很大的数据集,例如,用户日志和OLTP的用户数据.任何一个数据集都不是足够小到可以缓存在map作业的内存中.这样看来,似乎就不能使用 ...

随机推荐

jQuery Mobile 连接外部连接或切换动画
jQuery Mobile不同网页之间的跳转问题 jQuery Mobile,一个新的手机终端脚本开发库,从名字可以看出,它是基于jQuery:目前支持很多种手机设备,包括IOS/Android/Bl ...
Windows Service 之详解（二）
一.创建 Windows 服务程序 1.文件 → 新建 → 项目 → 选择 Windows 服务模板,创建 WinService 项目: 选择这个服务的属性,可以打开属性对话框.可配置如下值: [1] ...
Android 自学之对话框
Android为我们提供了丰富的对话框支持,提供了四种常用的对话框: AlertDialog:功能丰富.实际应用最广泛的对话框. ProgressDialog:进度对话框,该对话框只用于简单的进度条封 ...
Commons Codec - 常见的编码解码
Base64 Base64 编码 assertEquals("T3chIQ==", Base64.encodeBase64String("Ow!!".getBy ...
Quartz Scheduler(2.2.1) - Integration with Spring
1. maven 依赖: <properties> <spring.version>3.2.3.RELEASE</spring.version> <quart ...
也谈Asp.net 中的身份验证
钱李峰的这篇博文<Asp.net中的认证与授权>已对Asp.net 中的身份验证进行了不错实践.而我这篇博文,是从初学者的角度补充了一些基础的概念,以便能有个清晰的认识. 一.配置安全身 ...
Agile.Net 组件式开发平台 - 数据访问组件
Agile.DataAccess.dll 文件为系统平台数据访问支持库,基于FluentData扩展重写,提供高效的性能与风格简洁的API,支持多种主流数据库访问. 当前市面上的 ORM 框架,如 E ...
如何设置win7任务栏的计算机快速启动
win7默认会有一个资源管理器的快速启动栏,但是点击的时候会打开“库”,你可能一般不会用这个库,想打开计算机怎么办呢? 其实很简单,再按住shift的同时右键资源管理器的这个快速启动项,然后会出现菜单 ...
Win7 IIS (HTTP Error 500.21 - Internal Server Error)解决
今天在测试网站的时候,在浏览器中输入http://localhost/时,发生如下错误: HTTP Error 500.21 - Internal Server Error Handler " ...
C#之base关键字
1.base关键字用于从派生类中访问基类的成员. 2.调用基类上已被其他方法重写的方法. 3.指定创建派生类的实例是应调用基类的构造函数. 4.访问基类的公有成员和受保护成员,不能访问私有成员 5在静 ...

[大牛翻译系列]Hadoop（6）MapReduce 排序：总排序（Total order sorting）

4.2.2 总排序（Total order sorting）

[大牛翻译系列]Hadoop（6）MapReduce 排序：总排序（Total order sorting）的更多相关文章

随机推荐

热门专题