hive的排序 order by和sort by

在算法中，各个排序算法的复杂度都比较高，正常情况下为O (nlogn) ，所以当数据量特别大的时候，对数组进行排序消耗都很大。

因为hive的计算引擎MapReduce是分布式系统，

利用分布式的特点，可以对排序的数据各个机器节点内有序，再做归并排序，

虽然这样做的复杂度还是O (nlogn) ，

但是对比老版本hive的做法，改善不少。

老版本hive的order by并不是做归并排序，而是将所有数据都集合到一台机器上，然后做一个全局排序，

这样做的缺点就是，

一个没办法利用分布式系统的并发计算，因为在一台机器上，这台机器的cpu压力很大，

第二个缺点是这台机器的内存压力也很大，因为计算要发生在内存中，数据量很大的情况下，一台机器的内存并放不下这么多的数据。

在hive的严格模式中，order by的时候会要求你加上limit字段

尽管已经用归并排序做了优化，但是在大数据统计中，全局排序的场景也不太常见，

针对计算topN的排序，只要限制了limit字段，每台机器都可以只排序前N条数据，然后对N条数据做归并排序，

速度上快了很多，毕竟，我们可能只需要计算top一万，但是总数据量可能有一亿(总数据量总是高的离谱，但top范围总是很低的)。

hive还提供了一个order by 的弱化版本，就是sort by，减去了最后一个归并排序，只要各个机器节点里的数据有序就行了

比如n条数据，被分成n/m条数据，那么复杂度就是 (n/m)*(m)*log(m)=nlogm，分的越离散(m越小)，速度越快，

因为不需要最后做归并排序(m越小，数据条数就越多，归并排序的时候就越耗时)

关于n条如何被分为m条，需要用distribute by指定字段，比如指定name，这样就可以保证相同name的数据有序了。

为什么说sort by 是order by 的弱化版本，

因为没有了最后一步归并排序，所以最后的结果不是全局有序的，只是局部有序的

hive的排序 order by和sort by的更多相关文章

Hive中的order by、sort by、distribute by、cluster by解释及测试
结论: order by:全局排序,这也是4种排序手段中唯一一个能在终端输出中看出全局排序的方法,只有一个reduce,可能造成renduce任务时间过长,在严格模式下,要求必须具备limit子句. ...
Hive 中的 order by, sort by, distribute by 与 cluster by
Order By order by 会对输入做全排序, 因此只有一个Reducer(多个Reducer无法保证全局有序), 然而只有一个Reducer, 会导致当输入规模较大时, 消耗较长的计算时间. ...
Hive中的Order by与关系型数据库中的order by语句的异同点
在Hive中,ORDER BY语句是对查询结果集进行整体的排序,最终将会产生一个reducer进行全局的排序,达到的最终结果是和传统的关系型数据库是一样的. 在数据量非常大的时候,全局排序的单个red ...
2.12 Hivet中order by，sort by、distribute by和cluster by
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy 一.order by 对全局数据的排序,仅仅只有一个red ...
hive 分组排序，topN
hive 分组排序,topN 语法格式:row_number() OVER (partition by COL1 order by COL2 desc ) rankpartition by:类似hiv ...
hive的排序，分組练习
hive的排序,分組练习数据: 添加表和插入数据(数据在Linux本地中) create table if not exists tab1( IP string, SOURCE string, TY ...
[Hive_9] Hive 的排序
0. 说明全排序(order by) | 部分排序(sort by) | hash 分区(distribute by) | cluster by 1. 前期准备 1.1 建表 create tab ...
SAS中的Order By - Proc Sort
SAS中的Order By - Proc Sort 1.排序proc sort proc sort在按数据集中某一个变量或几个变量的升序或降序将记录重新排列,并把结果保存在输出数据集中,如果不另外指定 ...
经典排序算法 – 插入排序Insertion sort
经典排序算法 – 插入排序Insertion sort 插入排序就是每一步都将一个待排数据按其大小插入到已经排序的数据中的适当位置,直到全部插入完毕. 插入排序方法分直接插入排序和折半插入排序两种, ...

随机推荐

JMeter循环读取CSV文件实现接口批量测试
首先要理解为什么要进行批量测试,当我们在工作中进行接口测试时,项目的接口肯定不止一个,而是很多很多,而且每个接口都需要进行正确参数,错误参数,参数为空,特殊字符等方式来测试接口是否能够正确返回所需的响 ...
Tree UVA - 548
You are to determine the value of the leaf node in a given binary tree that is the terminal node o ...
Day11_50_SortedMap集合
SortedMap集合二叉查找树和二叉*衡树二叉查找树是一种有序的树,所有的左孩子的value值都是小于叶子结点的value值的,所有右孩子的value值都是大于叶子结点的.这样做的好处在于: ...
听说你买的基金又“绿了”,手把手教你用 Python选出好基金
打工人打工魂打工都是人上人,红基金绿基金绿了又绿你基金.今天教大家一招不再被(基金)绿. 01 开发环境 Windows10 Python3 Pycharm 一些必要的库 02 步骤 1. 获取基金排 ...
软件篇-06-SLAM小车Self Navigation
当SLAM小车能够以较高的精度运动到人为设置的目标点时,下一步就是把SLAM小车放到一个陌生的环境中,让它自己建图了.为什么?因为它已经是一只成熟的SLAM小车了. 我这里写的比较简单,刚写还没几 ...
CSS3中Animation为同一个元素添加多个动画效果
CSS3 Animation 并未提供给一个元素同时添加多个动画效果的方法,就是说一个元素,只能给它定义一个动画效果,不能同时定义. 需求说明比如说,我想实现一个这样的动画效果: 一颗星星从上往下滑 ...
POJ1236 强连通（缩点后度数的应用）
题意: 一些学校有一个发送消息的体系,现在给你一些可以直接发送消息的一些关系(单向)然后有两个问题 (1) 问你至少向多少个学校发送消息可以让所有的学校都得到消息 (2) 问至少加多少条边 ...
UVA11134传说中的车（放棋子）
题意: 给你一个n*n的棋盘,让你在棋盘上放n个棋子,要求是所有棋子不能相互攻击(同行或者同列就会攻击),并且每个棋子都有一个限制,那就是必须在给定的矩形r[i]里,输出每个棋子的位置,s ...
8.PHP图像处理
PHP图像处理 GD2 Jpgraph 创建一个画布: <?php header('content-type:image/gif'); //echo "你好"; ...
Intel汇编程序设计-整数算术指令（中）
7.3 移位和循环移位的应用 7.3.1 多双字移位要对扩展精度整数(长整数)进行移位操作,可把它划分为字节数组.字数组或双字数组,然后再对该数组进行移位操作.在内存中存储数字时通常采用的方式是 ...

hive的排序 order by和sort by

hive的排序 order by和sort by的更多相关文章

随机推荐

热门专题