Hive row_number() 等用法

1、row_number() over()排序功能：

（1） row_number() over()分组排序功能：

在使用 row_number() over()函数时候，over()里头的分组以及排序的执行晚于 where group by order by 的执行。

partition by 用于给结果集分组，如果没有指定那么它把整个结果集作为一个分组，它和聚合函数不同的地方在于它能够返回一个分组中的多条记录，而聚合函数一般只有一个反映统计值的记录。

例如：employee,根据部门分组排序。

SELECT empno,WORKDEPT,SALARY, Row_Number() OVER (partition by workdept ORDER BY salary desc) rank FROM employee

--------------------------------------

 A00 152750  1

 A00 66500   2

 A00 49250   3

 A00 46500   4

 A00 39250   5

 B01 94250   1

 C01 98250   1

 C01 73800   2

（2）对查询结果进行排序：（无分组）

SELECT empno,WORKDEPT,SALARY, Row_Number() OVER (ORDER BY salary desc) rank FROM employee  

--------------------------------------

 A00 152750  1

 C01 98250   2

 D21 96170   3

 B01 94250   4

 E11 89750   5

 E21 86150   6

 E01 80175   7

 C01 73800   8

 D11 72250   9

row_number() over()和rownum差不多，功能更强一点（可以在各个分组内从1开时排序）．

2、rank() over()是跳跃排序，有两个第二名时接下来就是第四名（同样是在各个分组内）．

select workdept,salary,rank() over(partition by workdept order by salary) as dense_rank_order from emp order by workdept; 

------------------

A00 39250   1

A00 46500   2

A00 49250   3

A00 66500   4

A00 152750  5

B01 94250   1

C01 68420   1

C01 68420   1

C01 73800   3

3、dense_rank() over()是连续排序，有两个第二名时仍然跟着第三名。相比之下row_number是没有重复值的．

select workdept,salary,dense_rank() over(partition by workdept order by salary) as dense_rank_order from emp order by workdept;

------------------

A00 39250   1

A00 46500   2

A00 49250   3

A00 66500   4

A00 152750  5

B01 94250   1

C01 68420   1

C01 68420   1

C01 73800   2

C01 98250   3

使用ROW_NUMBER删除重复数据
---假设表TAB中有a,b,c三列，可以使用下列语句删除a,b,c都相同的重复行。

DELETE FROM (select year,QUARTER,RESULTS,row_number() over(partition by YEAR,QUARTER,RESULTS order by YEAR,QUARTER,RESULTS) AS ROW_NO FROM SALE )

WHERE ROW_NO>1

最后在执行hive 语句时出错，出现错误：

FAILED: ParseException line 22:7 extraneous input '10' expecting EOF near ''

有看到解释说是，原因是：

sql语句中多了分号。。。

执行脚本时需要在sql后面添加分号，但是调用jdbc执行sql语句时，不可以在语句用分号结束。

但依旧没有解决问题。

转自：https://www.cnblogs.com/alsf/p/6344197.html

Hive row_number() 等用法的更多相关文章

分区函数Partition By的与row_number()的用法以及与排序rank()的用法详解(获取分组(分区)中前几条记录)
partition by关键字是分析性函数的一部分,它和聚合函数不同的地方在于它能返回一个分组中的多条记录,而聚合函数一般只有一条反映统计值的记录,partition by用于给结果集分组,如果没有指 ...
结果集一组数据的第几条ROW_NUMBER基本用法
因为项目中用到,今天来记录下 ROW_NUMBER的用法. 说明:返回结果集分区内行的序列号,每个分区的第一行从 1 开始. 语法:ROW_NUMBER () OVER ([ <partitio ...
【DB2】DB2中rank(),dense_rank(),row_number()的用法
1.准备测试数据 DROP TABLE oliver_1; ),SUB_NO ),SCORE int); ,,); ,,); ,,); ,,); ,,); ,,); 2.详解rank(),dense_ ...
Hive 基本语法操练（五）：Hive 的 JOIN 用法
Hive 的 JOIN 用法 hive只支持等连接,外连接,左半连接.hive不支持非相等的join条件(通过其他方式实现,如left outer join),因为它很难在map/reduce中实现这 ...
hive支持in用法是从0.3.2版本后
写hive 用in 如分时段,分类型,分平台统计点击量 select substr(createtime,12,2) hour,logtype,os_id,count(*) from wizad_ ...
hive的shell用法（脑子糊涂了，对着脚本第一行是 #!/bin/sh 疯狂执行hive -f 结果报错）
hive脚本的执行方式 hive脚本的执行方式大致有三种: hive控制台执行: hive -e "SQL"执行: hive -f SQL文件执行:参考hive用法: usage: ...
ROW_NUMBER() OVER() 用法
语法 ROW_NUMBER ( ) OVER ( [ PARTITION BY value_expression , ... [ n ] ] order_by_clause ) 参数 PARTITIO ...
HIVE Transform using 用法
select TRANSFORM(*, *, *) using 'python filter.py' as (*, *, *) from t_1 HIVE支持pipe操作,将select出来的字段,用 ...
SQL 函数 coalesce()、row_number()的用法
coalesce()函数 ①用途: 将空值替换成其他值返回第一个非空值 ②表达式: COALESCE是一个函数, (expression_1, expression_2, ...,expressio ...

随机推荐

codeforces 713C C. Sonya and Problem Wihtout a Legend(dp)（将一个数组变成严格单增数组的最少步骤）
E. Sonya and Problem Wihtout a Legend time limit per test 5 seconds memory limit per test 256 megaby ...
POJ 3068 "Shortest" pair of paths（费用流）
[题目链接] http://poj.org/problem?id=3068 [题目大意] 给出一张图,要把两个物品从起点运到终点,他们不能运同一条路过每条路都有一定的费用,求最小费用 [题解] 题目 ...
[CF842E]Nikita and game
[CF842E]Nikita and game 题目链接: CF842E 博客地址: [CF842E]Nikita and game - skylee 题目大意: 一棵树初始只有一个编号为\(1\)的 ...
3.2常用类（java学习笔记）String与StringBuffer
一.String String又称不可变字符序列. 我们看JDK源码中用于字符存储的数组有final修饰,final修饰变量就代表变量不能改变. 我们可以看API文档中对String的描述. Stri ...
Java矩阵库—jblas、ujmp、jmatio的相互转化
1)首先使用jmatio(v0.2)从.mat文件读取数据到内存中,并将其转化为二维数组的形式. import com.jmatio.io.MatFileReader; import com.jmat ...
jeeplus中两个项目redis冲突问题
修改端口号[两个项目使用不同的database]
iOS 自定义相机带拍摄区域边框及半透明遮罩层(含源码)
开始时准备封装成ViewController的相机,但是在不改我相机控件源码的情况下,使用者很难自定义UI.于是想到将相机核心功能封装到View里,暴露出功能方法给外面调用,调用者只需将LFCamer ...
HTML-DEV-ToolLink（常用的在线字符串编解码、代码压缩、美化、JSON格式化、正则表达式、时间转换工具、二维码生成与解码等工具，支持在线搜索和Chrome插件。）
HTML-DEV-ToolLink:https://github.com/easonjim/HTML-DEV-ToolLink 常用的在线字符串编解码.代码压缩.美化.JSON格式化.正则表达式.时间 ...
HttpApplication理解
HttpApplication对象是经由HttpApplicationFactory.GetApplicationInstance(并最终调用HttpRuntime.CreateNonPublicIn ...
python-sdk-demo的打包
1.安装setuptools pip install python-setuptools 2.创建一个简单的包下载demo https://github.com/cp-m/py-sdk-demo.g ...

Hive row_number() 等用法

Hive row_number() 等用法的更多相关文章

随机推荐

热门专题