Hive中order by，sort by，distribute by，cluster by的区别

一：order by

order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。关于order by的详细介绍请参考这篇文章：Hive Order by操作。

二：sort by

sort by不是全局排序，其在数据进入reducer前完成排序，因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只会保证每个reducer的输出有序，并不保证全局有序。sort by不同于order by，它不受Hive.mapred.mode属性的影响，sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定)，对输出的数据再执行归并排序，即可得到全部结果。

三：distribute by

distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此，distribute by经常和sort by配合使用。

注：Distribute by和sort by的使用场景

1.Map输出的文件大小不均。

2.Reduce输出文件大小不均。

3.小文件过多。

4.文件超大。

四：cluster by

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒叙排序，不能指定排序规则为ASC或者DESC。

示例：

#sort by

hive (hive)> select * from user;
OK
id name
1 lavimer
2 liaozhongmin
3 liaozemin

使用sort by按id降序排列：

hive (hive)> select * from user sort by id desc;
//MapReduce...
Execution completed successfully
Mapred Local Task Succeeded . Convert the Join into MapJoin
OK
id name
3 liaozemin
2 liaozhongmin
1 lavimer
Time taken: 3.828 seconds

#distribute by

hive (hive)> select * from user;
OK
id name
1 lavimer
2 liaozhongmin
3 liaozemin
100 hello
200 hadoop

#设置reduce的个数

hive (hive)> set mapred.reduce.tasks=2;
hive (hive)> set mapred.reduce.tasks;
mapred.reduce.tasks=2

#使用带distribute by的数据从user表中导出数据

hive (hive)> insert overwrite local directory '/usr/local/src/user.txt' select * from user distribute by id;
//MapReduce...
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 2

注：从上述语句执行过程可以看到启动了两个Reducer。

#导出到本地的数据

[root@liaozhongmin5 src]# cd user.txt/
[root@liaozhongmin5 user.txt]# ll
总用量 8
-rwxrwxrwx. 1 root root 36 1月 30 14:35 000000_0
-rwxrwxrwx. 1 root root 22 1月 30 14:35 000001_0
[root@liaozhongmin5 user.txt]# more 000000_0
2 liaozhongmin
100 hello
200 hadoop
[root@liaozhongmin5 user.txt]# more 000001_0
1 lavimer
3 liaozemin
[root@liaozhongmin5 user.txt]#

注：从上述结果中，我们可以看到数据被分发到了两个Reducer中处理。

#distribute by和sort by结合使用

hive (hive)> select * from temperature;
OK
year tempra
2008 30`C
2008 35`C
2008 32.5`C
2008 31.5`C
2008 31`C
2015 41`C
2015 39`C
2015 36`C
2015 33`C
2015 35`C
2015 37`C

#根据年份和气温对气象数据进行排序，以确保所具有相同年份的行最终都在一个reduce分区中。

hive (hive)> select * from temperature distribute by year sort by year asc,tempra desc;
//MapReduce...
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 2
//MapReduce...
OK
year tempra
2008 35`C
2008 32.5`C
2008 31`C
2008 31.5`C
2008 30`C
2015 41`C
2015 39`C
2015 37`C
2015 36`C
2015 35`C
2015 33`C
Time taken: 17.358 seconds

Hive中order by，sort by，distribute by，cluster by的区别的更多相关文章

hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**）
hive 查询语法 select [all | distinct] select_ condition, select_ condition from table_name a [join table ...
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
[转载]hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...
hive中order by,sort by, distribute by, cluster by的用法
1.order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数 ...
hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序) 只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set ...
hive 排序 order by sort by distribute by cluster by
order by: order by是全局排序,受hive.mapred.mode的影响. 使用orderby有一些限制: 1.在严格模式下(hive.mapred.mod ...
hive中order by、distribute by、sort by和cluster by的区别和联系
hive中order by.distribute by.sort by和cluster by的区别和联系 order by order by 会对数据进行全局排序,和oracle和mysql等数据库中 ...
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set h ...
[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...

随机推荐

Hex棋
Hex棋,又叫六角棋,译作海克斯棋.据说这个游戏是约翰·纳什发明的.网上并没有太多介绍,第一次听说是在"中国大学生计算机博弈大赛"官网上. 棋盘为11×11的六边形小格子组成,它是 ...
C#搞工控的一些代码
首先工控项目都会用到: using System.Runtime.InteropServices; 1.字节转化为单精度浮点数 2.单精度转成字节 3.使用结构体 4.使用动态链接库 5.ASCCII ...
Linux命令-某个用户组下面的所有用户
groups 查看当前登录用户的组内成员 groups gliethttp 查看gliethttp用户所在的组,以及组内成员whoami 查看当前登录用户名系统内有关组的信息放在/etc/group ...
在js或css后加?v= 版本号不让浏览器缓存
客户端会缓存css或js文件,改变版本号,客户端浏览器就会重新下载新的js或css文件,在js或css后加?v= 版本号的用法如下代码如下: <span style="font-si ...
【Linux】忘记root密码
常常有些朋友在配置好了Linux之后,结果root密码给他忘记去!要重新安装吗?不需要的,你只要以单人维护模式登陆即可更改你的root密码!下面以Redhat linux5为例 1)先将系统重新启动, ...
printDocument设置适应边框打印特重要找了半天设置一个属性即可
private void pd_PrintPage(object sender, PrintPageEventArgs e) { e.Graphics.SmoothingMode = System.D ...
pythonl学习笔记——爬虫的基本常识
1 robots协议 Robots协议(也称为爬虫协议.机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可 ...
#pragma pack
原文链接: http://www.cnblogs.com/s7vens/archive/2012/03/06/2382236.html pack 为 struct, union 和 class 等的成 ...
elk中文教程
https://kibana.logstash.es/content/elasticsearch/monitor/logging.html ELK 实战之Elasticsearch ELK 地址:ht ...
django中templates阅读笔记
一.基本知识 1.模版是独立于django的,可以独立运行. 模版变量是用两个大括号括起来的字符串,表示变量.例如{{ person_name }} 模版标签,是用一对大括号和一对百分号括起来的,例如 ...

Hive中order by，sort by，distribute by，cluster by的区别

Hive中order by，sort by，distribute by，cluster by的区别的更多相关文章

随机推荐

热门专题