[Hive_9] Hive 的排序

0. 说明

　　全排序(order by) | 部分排序(sort by) | hash 分区(distribute by) | cluster by

1. 前期准备

　　1.1 建表

create table user_order(id int, name string, age int, province string, city string)
row format delimited
fields terminated by '\t';

　　1.2 设置 reduce 个数

set mapreduce.job.reduces=2;

2. 全排序（order by）

　　使用一个 reduce，在真实使用中，需要加 limit 限制。

truncate table user_order;

insert into user_order select * from user_par order by id;

3. 部分排序（sort by ）

　　在每个 reduce 中分别排序

truncate table user_order;

insert into user_order select * from user_par sort by id;

4. hash 分区（distribute by ）

　　未排序

truncate table user_order;

insert into user_order select * from user_par distribute by id;

5. cluster by

　　cluster by = distribute by + sort by

truncate table user_order;

insert into user_order select * from user_par cluster by id;

[Hive_9] Hive 的排序的更多相关文章

hive 分组排序，topN
hive 分组排序,topN 语法格式:row_number() OVER (partition by COL1 order by COL2 desc ) rankpartition by:类似hiv ...
hive的排序，分組练习
hive的排序,分組练习数据: 添加表和插入数据(数据在Linux本地中) create table if not exists tab1( IP string, SOURCE string, TY ...
Hive 的排序
全排序:order by对全部所有的数据进行排序,在实现的时候是放到一个reduce中进行的,可以想象这样做效率是比较低的: 局部排序:sort by对数据进行分组,然后在组内进行排序,每个reduc ...
hive：排序分析函数
基本排序函数语法: rank()over([partition by col1] order by col2) dense_rank()over([partition by col1] order ...
hive分组排序取top N
pig可以轻松获取TOP n.书上有例子 hive中比较麻烦,没有直接实现的函数,可以写udf实现.还有个比较简单的实现方法: 用row_number,生成排名序列号.然后外部分组后按这个序列号多虑, ...
Hive中排序和聚集
//五种子句是有严格顺序的: where → group by → having → order by → limit ; //distinct关键字返回唯一不同的值(返回age和id均不相同的记录) ...
hive 分组排序函数 row_number() over(partition by " " order by " "desc
语法:row_number() over (partition by 字段a order by 计算项b desc ) rank --这里rank是别名 partition by:类似hive的建表, ...
hive的排序 order by和sort by
在算法中,各个排序算法的复杂度都比较高,正常情况下为O (nlogn) ,所以当数据量特别大的时候,对数组进行排序消耗都很大. 因为hive的计算引擎MapReduce是分布式系统, 利用分布式的特点 ...
hive 全局排序
不分发数据,使用单个reducer ; select * from dw.dw_app where dt>='2016-09-01' and dt <='2016-09-18' order ...

随机推荐

spring jdbcTemplate 事务，各种诡异，包你醍醐灌顶！
前言项目框架主要是spring,持久层框架没有用mybtis,用的是spring 的jdbc: 业务需求:给应用添加领域(一个领域包含多个应用,一个应用可能属于多个领域,一般而言一个应用只属于一个领 ...
vue开发中vue-resource + canvas 图片压缩、上传、预览
1.使用vue-resource上传,也可以自定义ajax上传: 2.使用<input type="file" @change="submit()" na ...
翻译：DECLARE Variable（已提交到MariaDB官方手册）
本文为mariadb官方手册:DECLARE Variable的译文. 原文:https://mariadb.com/kb/en/library/declare-variable/我提交到MariaD ...
ARM 汇编指令 ADR 与 LDR 使用
简介这两个都是伪指令:ADR 是小范围的地址读取伪指令,LDR 是大范围的读取地址伪指令.可实际使用的区别是: ADR 是将基于 PC 相对偏移的地址值或基于寄存器相对地址值读取的伪指令,而 LDR ...
Scrapy爬虫（4）爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...
wpf学习20180606
对象元素的子元素有三类子元素:内容属性.集合项.值(类型转换) ------------------------------------------------------------------- ...
mybatis_07动态SQL_foreach循环
废话不多说,直接上代码! <select id="findUserByforeach" parameterType="userQueryVO" resul ...
Java学习笔记之——Manth类和String类
(1) Math:常用的数学运算,都是静态方法方法摘要 static double abs(double a) 返回 double 值的绝对值. static float abs(float a) ...
Javascript继承5：如虎添翼----寄生式继承
/* * 寄生式继承 * 其实就是对原型继承的第二次封装,在封装过程中对继承的对象进行了扩展. * 也存在原型继承的缺点!! * 这种思想的作用也是为了寄生组合式继承模式的实现. */ //声明基对象 ...
Springboot使用Filter以及踩过的坑
Springboot使用Filter以及踩过的坑在Springboot中使用Filter有两种方式,注解方式,注册bean方式一.注解@WebFilter 1.实现Filter接口(javax.s ...

[Hive_9] Hive 的排序

0. 说明

1. 前期准备

1.1 建表

1.2 设置 reduce 个数

2. 全排序（order by）

3. 部分排序（sort by ）

4. hash 分区（distribute by ）

5. cluster by

[Hive_9] Hive 的排序的更多相关文章

随机推荐

热门专题

　　1.1 建表

　　1.2 设置 reduce 个数