Hive中的Order by与关系型数据库中的order by语句的异同点

在Hive中，ORDER BY语句是对查询结果集进行整体的排序，最终将会产生一个reducer进行全局的排序，达到的最终结果是和传统的关系型数据库是一样的。

在数据量非常大的时候，全局排序的单个reducer将会成为性能瓶颈，有可能由于数据量过大而跑不出来结果。

Hive中可以设置hive.mapred.mode为strict严格模式，这时候，Hive要求用户必须对order by语句加上limit 条数限制，防止排序数据集过大导致性能瓶颈。

在这里我不提sort by ,distribute by的用法，下一节好好分析下这几个语句的用法。我主要讲下Hive的order by 与oracle 的order by的不同点。

同样是一个emp雇员表。我希望执行如下查询：

SELECT empno,ename,job,sal FROM emp order by deptno;

这个语句中，order by排序引用的列在不是select查询的列，在大多数的关系型数据库中执行是没有问题的，但是在Hive中执行就会出问题，效果如下：

在Oracle sqlplus中执行效果如下：

在Hive中执行却报错：

在HIVE中，order by语句只能引用select查询的列，这一点我觉得是有待改进的地方。

我在查询列表中加上deptno后，才能正常执行，这一点大家在写Hive SQL的时候需要注意，或许后续版本会对这个bug进行改进，我当前用的是Hive 2.3.3版本。

排序列如果来自于select 后的选择列的时候就不会报错，如下：

select deptno,empno,ename,job,salary from emp order by deptno;

Hive中的Order by与关系型数据库中的order by语句的异同点的更多相关文章

转: SQL中的where条件，在数据库中提取与应用浅析
SQL中的where条件,在数据库中提取与应用浅析 http://hedengcheng.com/?p=577 1问题描述一条SQL,在数据库中是如何执行的呢?相信很多人都会对这个问题比较感兴趣.当 ...
Sqoop（三）将关系型数据库中的数据导入到HDFS（包括hive，hbase中）
一.说明: 将关系型数据库中的数据导入到 HDFS(包括 Hive, HBase) 中,如果导入的是 Hive,那么当 Hive 中没有对应表时,则自动创建. 二.操作 1.创建一张跟mysql中的i ...
从集合的无序性看待关系型数据库中的"序"
本文目录:1.集合的特征2.集合的无序性3.表中记录的无序性4.集合的"序"和物理存储顺序之间的关系5.查询结果(虚拟表)的无序性.随机性6.为什么总是强调"无序&quo ...
转载-SQL中的where条件，在数据库中提取与应用浅析
1 问题描述一条SQL,在数据库中是如何执行的呢?相信很多人都会对这个问题比较感兴趣.当然,要完整描述一条SQL在数据库中的生命周期,这是一个非常巨大的问题,涵盖了SQL的词法解析.语 ...
SQL中的where条件，在数据库中提取与应用浅析
1. 问题描述一条SQL,在数据库中是如何执行的呢?相信很多人都会对这个问题比较感兴趣.当然,要完整描述一条SQL在数据库中的生命周期,这是一个非常巨大的问题,涵盖了SQL的词法解析.语法解析.权限 ...
0320SQL中的where条件，在数据库中提取与应用浅析
转自何登成的技术博客追求技术的道路上,10年如一日首页关于我 RSS 订阅 © 2012-2017 何登成的技术博客 SQL中的where条件,在数据库中提取与应用浅析 3月 3r ...
将 flask 中的 session 存储到 SQLite 数据库中
将 flask 中的 session 存储到 SQLite 数据库中使用 flask 构建服务器后端时,常需要在浏览器端存储 cookie 用于识别不同用户,根据不同的 cookie 判断出当前请求 ...
把Execl表格中的数据获取出来保存到数据库中
比如我们遇到一些需要把execl表格中的数据保存到数据库中,一条一条保存效率底下而且容易出错,数据量少还好,一旦遇到数据量大的时候就会累死个人啊,下面我们就来把execl表格中数据保存到对应的数据库中 ...
关系型数据库中主键（primary key）和外键（foreign key）的概念。
刚接触关系型数据库的同学,会听过主键和外键的概念.这是关系型数据库的基本概念,需要清楚理解.今天我就以简洁的语言总结一下这个概念. 主键.一句话概括:一张表中,可以用于唯一标识一条记录的字段组(或者说 ...

随机推荐

第4章学习小结_串(BF&KMP算法)、数组（三元组）
这一章学习之后,我想对串这个部分写一下我的总结体会. 串也有顺序和链式两种存储结构,但大多采用顺序存储结构比较方便.字符串定义可以用字符数组比如:char c[10];也可以用C++中定义一个字符串s ...
selenium+webservice进行百度登录
from selenium import webdriverimport time driver = webdriver.Chrome()driver.get("https://www.ba ...
主成分分析算法(PCA)
通过数据压缩(降维)可以减少特征数量,可以降低硬盘和内存的存储,加快算法的训练. 还可以把高维的数据压缩成二维或三维,这样方便做数据可视化. 数据压缩是通过相似或者相关度很高的特征来生成新的特征,减少 ...
linux 安装配置 sublime 进行 python 开发
1. 下载sublime 地址:http://www.sublimetext.com/3 2. 解压出来,将sublime_text_3 文件夹的名字改为 sublime_text , 然后将 sub ...
预攻击局域网 Windows 查看其它在线设备
环境:win10 首先我发现,一个常用的命令用不了,如图: net view 按理来说,按Enter键之后显示应该出局域网内所有正在运行的电脑:(截图来自百度) 那么我试一下另外一个办法: 首先ipc ...
【转】一文掌握 Linux 性能分析之 CPU 篇
[转]一文掌握 Linux 性能分析之 CPU 篇平常工作会涉及到一些 Linux 性能分析的问题,因此决定总结一下常用的一些性能分析手段,仅供参考. 说到性能分析,基本上就是 CPU.内存.磁盘 ...
Django 连接mysql数据库中文乱码
Django 连接mysql数据库中文乱码 2018年08月25日 20:55:15 可乐乐乐乐乐阅读数:566 版本:CentOS6.8 python3.6.4 django1.8.2 数据库 ...
为什么要使用`QuerySet.iterator()`
用django的custom command功能,写了一个脚本,目的是修正生成环境的数据,tqdm告诉我运行时长预估是2小时. 一个小时后,正在吃午饭的我,接到了很多微信推送.客户告诉我服务不可用,同 ...
题解-COCI-2015Norma
Problem SPOJ-NORMA2 & bzoj3745 题意概要:给定一个正整数序列 \(\{a_i\}\),求 \[\sum_{i=1}^n\sum_{j=i}^n(j-i+1)\mi ...
第十三章：UNDO段
一.UNDO UNDO 段是用于存储还原数据的特殊段,在发生实例故障的时候,UNDO 段用来对数据进行恢复.本章内容包括介绍 UNDO 段的工作原理,并进行自动和手工的 UNDO 段的管理 1.1 ...

Hive中的Order by与关系型数据库中的order by语句的异同点

Hive中的Order by与关系型数据库中的order by语句的异同点的更多相关文章

随机推荐

热门专题