[大数据相关] Hive中的全排序：order by,sort by, distribute by

写mapreduce程序时，如果reduce个数>1，想要实现全排序需要控制好map的输出，详见Hadoop简单实现全排序。

现在学了hive，写sql大家都很熟悉，如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗？

事实上，hive使用order by会默认设置reduce的个数=1，既然reducer的个数都是1了，结果自然全排序！

这也违背了充分利用分布式计算进行海量数据排序的初衷，效率低下。

那么hive又提供了一个可供选择的方式：sort by

它会保证每个reducer的输出文件是有序的（其实是废话，每个reducer的输出当然是有序的！），要想实现全排序，还得加一个order by的过程，就是对sort by的reduce输出结果再进行一次排序。

所以：

要想用hive实现全排序：

要么用order by，但这样默认了reducer个数为1，效率低下。

要么用sort by+order by，sort by过程可以设置reducer个数（n），order by过程用n个reducer的输出文件进行一次全排序，得到最终的结果。

（个人理解，如有错误请不吝赐教，感谢！）

注：

（1）对于order by，sort by：

我们可以使用limit进行限制返回的行数，从而实现抓出数据的top N的情形。

（2）对于distribute by：

sort by为每个reducer产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。hive的distribute by就派上用场了：

from table select year, temperature distribute by year sort by year asc, temperature desc;

上面实现了局部排序，且规定了：根据年份和气温对气象数据进行排序，以确保所有具有相同年份的行最终都在一个reducer分区中（文件下），可以看出，distribute by经常与sort by一起使用。

需要注意的是，hive要求distribute by要写在sort by之前。

（3）对于cluster by：

简而言之：cluster by column=distribute by column+sort by column（注意，都是针对column列，且采用默认ASC）

即对于上面例子：

from table select year, temperature cluster by year;

就等于：

from table select year, temperature distribute by year sort by year;

当然这失去了按照气温排序的要求。

参考：https://www.jianshu.com/p/1a3625a71118 仅供个人学习，有改动

[大数据相关] Hive中的全排序：order by,sort by, distribute by的更多相关文章

hive中的全排序
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出现在学了Hive,写sql大家都很熟悉,如果一个order by解决了全排序还用那么麻烦写mapred ...
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间. set h ...
hive 排序 order by sort by distribute by cluster by
order by: order by是全局排序,受hive.mapred.mode的影响. 使用orderby有一些限制: 1.在严格模式下(hive.mapred.mod ...
从技术 Leader 的招聘需求看，如何转岗为当前紧缺的大数据相关人才？
前段时间,跟候选人聊天的时候,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识.他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不 ...
Build2016上值得一看的大数据相关Session
(此文章同时发表在本人微信公众号"dotNET每日精华文章",欢迎右边二维码来关注.) 题记:Build2016开完很久了,现在才来回顾下,就说说那些和大数据相关的Session, ...
漫谈ELK在大数据运维中的应用
漫谈ELK在大数据运维中的应用圈子里关于大数据.云计算相关文章和讨论是越来越多,愈演愈烈.行业内企业也争前恐后,群雄逐鹿.而在大数据时代的运维挑站问题也就日渐突出,任重而道远了.众所周知,大数据平台 ...
大数据平台Hive数据迁移至阿里云ODPS平台流程与问题记录
一.背景介绍最近几天,接到公司的一个将当前大数据平台数据全部迁移到阿里云ODPS平台上的任务.而申请的这个ODPS平台是属于政务内网的,因考虑到安全问题当前的大数据平台与阿里云ODPS的网络是不通的 ...
hdfs数据到hive中，以及hdfs数据隐身理解
hdfs数据到hive中: 假设hdfs中已存在好了数据,路径是hdfs:/localhost:9000/user/user_w/hive_g2park/user_center_enterprise_ ...
各类人工智能&大数据相关比赛
比赛技巧:https://zhuanlan.zhihu.com/p/28084438 文章来源: https://www.imooc.com/article/72863 随着近几年人工智能和大数据的快 ...

随机推荐

Kafka架构和原理深度剖析
Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统.主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,并保证即使对TB级以上数据也能保证常数时间的访问性能高吞吐率. ...
关于Vue中，$this.router.push到当前页面，只是传入参数不同，页面不刷新的问题解决
在页面的watch中,监听$router的变化 watch: { $route (to, from) { this.$router.go(0) } } 其中this.$router.go(0)为刷新页 ...
安装配置nginx之后访问不了nginx的问题
我刚开通的服务器,没有设置安全组规则. 进入云服务控制台配置规则其他不要动,授权对象加0.0.0.0/0 就可以访问nginx了
SecureCRT和SecureFX的安装和破解
1.SecureCRT & SecureFX 介绍 1.1 SecureCRT SecureCRT 是一款终端仿真软件,和 Putty 的功能类似. 不过相比Putty比较简单的功能,Secu ...
Docker本地镜像上传到阿里云仓库
登录阿里云在容器镜像服务中先创建命名空间随后创建镜像仓库我使用的代码源是本地仓库创建后点击仓库的管理就可以看到阿里云提供的操作指南 (下面的操作每个人都不同,详情查看阿里云的操作指南) 输入 ...
Python基础——细琐知识点
注释 Python注释有两种方式使用# 类似于Shell脚本的注释方式,单行注释使用'''或者""" 使用成对的'''或者""".这种注 ...
动态规划——python
1.爬楼梯问题一个人爬楼梯,每次只能爬1个或两个台阶,假设有n个台阶,那么这个人有多少种不同的爬楼梯方法动态规划的状态转移:第 i 个状态的方案数和第 i-1, i-2时候的状态有关,即:dp[i] ...
使用jquery和使用框架的区别
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
循环双端链表(python)
# -*- coding: utf-8 -*- class Node(object): __slots__ = ('value', 'prev', 'next') # save memory def ...
CH6201 走廊泼水节[最小生成树]
描述 [简化版题意]给定一棵N个节点的树,要求增加若干条边,把这棵树扩充为完全图,并满足图的唯一最小生成树仍然是这棵树.求增加的边的权值总和最小是多少. 我们一共有N个OIER打算参加这个泼水节,同时 ...

[大数据相关] Hive中的全排序：order by,sort by, distribute by

[大数据相关] Hive中的全排序：order by,sort by, distribute by的更多相关文章

随机推荐

热门专题