Hive窗口函数案例详解

语法：

分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)

常用分析函数：

聚合类

avg()、sum()、max()、min()
排名类

row_number() 按照值排序时产生一个自增编号，不会重复

rank() 按照值排序时产生一个自增编号，值相等时会重复，会产生空位

dense_rank() 按照值排序时产生一个自增编号，值相等时会重复，不会产生空位
其他类

lag(列名,往前的行数,[行数为null时的默认值，不指定为null])

lead(列名,往后的行数,[行数为null时的默认值，不指定为null])

ntile(n) 把有序分区中的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，ntile返回此行所属的组的编号

注意点：

over()函数中的分区、排序、指定窗口范围可组合使用也可以不指定，根据不同的业务需求结合使用
over()函数中如果不指定分区，窗口大小是针对查询产生的所有数据，如果指定了分区，窗口大小是针对每个分区的数据

over()函数中的窗口范围说明：

current row：当前行

unbounded：起点，unbounded preceding 表示从前面的起点， unbounded following表示到后面的终点

n preceding ：往前n行数据

n following：往后n行数据

实战案例1：

原始数据(用户购买明细数据)

name，orderdate，cost

jack,2017-01-01,10

tony,2017-01-02,15

jack,2017-02-03,23

tony,2017-01-04,29

jack,2017-01-05,46

jack,2017-04-06,42

tony,2017-01-07,50

jack,2017-01-08,55

mart,2017-04-08,62

mart,2017-04-09,68

neil,2017-05-10,12

mart,2017-04-11,75

neil,2017-06-12,80

mart,2017-04-13,94

建表加载数据

vi business.txt

create table business

(

name string,

orderdate string,

cost int

)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

load data local inpath "/opt/module/data/business.txt" into table business;

需求

(1)查询在2017年4月份购买过的顾客及总人数

分析：按照日期过滤、分组count求总人数(分组为什么不是用group by？自己思考)

select

name,

orderdate,

cost,

count(*) over() total_people

from

business

where date_format(orderdate,'yyyy-MM')='2017-04';

(2)查询顾客的购买明细及月购买总额

分析：按照顾客分组、sum购买金额

select

name,

orderdate,

cost,

sum(cost) over(partition by name) total_amount

from

business;

(3)上述的场景,要将cost按照日期进行累加

分析：按照顾客分组、日期升序排序、组内每条数据将之前的金额累加

select

name,

orderdate,

cost,

sum(cost) over(partition by name order by orderdate rows between unbounded preceding and current row) cumulative_amount

from

business;

(4)查询顾客上次的购买时间

分析：查询出明细数据同时获取上一条数据的购买时间(肯定需要按照顾客分组、时间升序排序)

select

name,

orderdate,

cost,

lag(orderdate,1) over(partition by name order by orderdate) last_date

from

business;

(5)查询前20%时间的订单信息

分析：按照日期升序排序、取前20%的数据

select

*

from

(

select

name,

orderdate,

cost,

ntile(5) over(order by orderdate) sortgroup_num

from

business

) t

where t.sortgroup_num=1;

实战案例2：

原始数据(学生成绩信息)

name	subject	score

孙悟空	语文	87

孙悟空	数学	95

孙悟空	英语	68

大海	语文	94

大海	数学	56

大海	英语	84

宋宋	语文	64

宋宋	数学	86

宋宋	英语	84

婷婷	语文	65

婷婷	数学	85

婷婷	英语	78

建表加载数据

vi score.txt

create table score

(

name string,

subject string,

score int

) row format delimited fields terminated by "\t";

load data local inpath '/opt/module/data/score.txt' into table score;

需求：

(1)每门学科学生成绩排名(是否并列排名、空位排名三种实现)

分析：学科分组、成绩降序排序、按照成绩排名

select

name,

subject,

score,

rank() over(partition by subject order by score desc) rp,

dense_rank() over(partition by subject order by score desc) drp,

row_number() over(partition by subject order by score desc) rmp

from

score;

(2)每门学科成绩排名top n的学生

select

*

from

(

select

name,

subject,

score,

row_number() over(partition by subject order by score desc) rmp

from score

) t

where t.rmp<=3;

Hive窗口函数案例详解的更多相关文章

图解大数据 | 海量数据库查询-Hive与HBase详解
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-det ...
spring的IOC，DI及案例详解
一:spring的基本特征 Spring是一个非常活跃的开源框架:它是一个基于Core来架构多层JavaEE系统的框架,它的主要目的是简化企业开发.Spring以一种非侵入式的方式来管理你的代码,Sp ...
Hadoop Hive sql语法详解
Hadoop Hive sql语法详解 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件 ...
深入浅出 spring-data-elasticsearch - 基本案例详解（三
『风云说:能分享自己职位的知识的领导是个好领导. 』运行环境:JDK 7 或 8,Maven 3.0+技术栈:SpringBoot 1.5+, Spring Data Elasticsearch ...
大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
用一个开发案例详解Oracle临时表
用一个开发案例详解Oracle临时表 2016-11-14 bisal ITPUB 一.开发需求最近有一个开发需求,大致需要先使用主表,或主表和几张子表关联查询出ID(主键)及一些主表字段 ...
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
转自:http://blog.csdn.net/iamdll/article/details/20998035 分类: 分布式 2014-03-11 10:31 156人阅读评论(0) 收藏举报 ...
http500：服务器内部错误案例详解（服务器代码语法错误或者逻辑错误）
http500:服务器内部错误案例详解(服务器代码语法错误或者逻辑错误) 一.总结服务器内部错误可能是服务器中代码运行的时候的语法错误或者逻辑错误二.http500:服务器内部错误案例详解只是一 ...
Hive的配置详解和日常维护
Hive的配置详解和日常维护一.Hive的参数配置详解 1>.mapred.reduce.tasks 默认为-1.指定Hive作业的reduce task个数,如果保留默认值,则Hive 自 ...

随机推荐

Copy-On-Write技术
通俗的解释,假定多方需要使用同一个资源时,没有必要为每一方都创建该资源的一个完整的副本,反而令多方共享这个资源,当某方需要修改资源的某处时,利用引用计数,把该处复制一个副本,再把跟新的内容写入该副本中 ...
zblog常用到的几个标签介绍
文章归档 <divclass="function"id="divArchives"> <h3><#ZC_MSG028#>&l ...
PyCharm:设置py文件头部信息
P PyCharm:设置py文件头部信息file->setting->appearance & behavior->editor->file and code temp ...
AVR单片机教程——点亮第一个LED
做了这么多准备,我们终于可以开始用开发板做点事了. 单片机编程与计算机编程有一些不同点.程序都要有零个或多个输入.一个或多个输出,这是两者都有的,但是计算机编程的输入输出主要靠控制台,而单片机没有. ...
Linux下交换文件说明
vi写文件,没有保存就关闭,会自动生成一个后缀为.swp的交换文件(隐藏文件),保存了前面写的内容先利用R恢复,在删除这个交换文件涉及到的命令 ls –a rm .xxx.swap -rf
beego入门笔记
Beego Learn Note 示例环境在Deepin系统下. deepin 15.9.3 ├── Beego : 1.11.2 ├── GoVersion : go1.12.4 ├── GOOS ...
小游戏UFO Fled
UFO Fled:https://play.google.com/store/apps/details?id=cn.crane.game.flappyufo UFO Fled -- 点击屏幕帮助UFO ...
Windows服务器修改远程桌面默认端口
一.打开注册表(通过开始菜单处输入命令输入 regedit回车即可打开注册表信息,或者Win键+R键打开输入框后输入regedit后回车) 二.打开注册表后,在左侧属性菜单进入下列路径“HKEY_LO ...
Codeforces Round #222 (Div. 1) (ABCDE)
377A Maze 大意: 给定棋盘, 保证初始所有白格连通, 求将$k$个白格变为黑格, 使得白格仍然连通. $dfs$回溯时删除即可. #include <iostream> #inc ...
RMAN备份脚本执行遇到RMAN-03002,06091问题处理
一问题描述客户说RMAN备份脚本执行有的时候报错,有的时候正常!!! 远程登陆客户环境,查询最后一次备份的日志报错信息,得到 RMAN-03002: failure of delete comma ...

Hive窗口函数案例详解

Hive窗口函数案例详解的更多相关文章

随机推荐

热门专题