date: 2019-08-30 11:02:37

updated: 2019-08-30 14:40:00

Hive Sql的窗口函数

1. count、sum、avg、max、min

sum 为例

  1. # 按照 year 来分组,统计每一年的总和
  2. # 结果:每个月的值都是本年的总和
  3. sum(val) over(partition by year)
  4. # 按照 year 来分组,按照 month 来排序
  5. # 结果:n 月的值是本年 1 - n 月的累计值
  6. sum(val) over(partition by year order by month)

通过 explain select ... 来查看语句解析,可以简单理解为,在每一次 order by 之后,会执行一次 sumreduce 过程,也就导致结果计算的是 1 - n 月的累计值

2. rows between

sum 为例

  1. # 按照 year 分组,按照 month 排序,计算前3行和后1行的总和
  2. sum(val) over(partition by year order by month rows between 3 preceding and 1 following)
  • preceding:往前
  • following:往后
  • current row:当前行
  • unbounded:起点
    • unbounded preceding:表示从前面的起点
    • unbounded following:表示到后面的终点
  1. # 以下两种方式是等效的
  2. sum(val) over(partition by year)
  3. sum(val) over(partition by year rows between unbounded preceding and unbounded following)
  4. # 以下两种方式是等效的
  5. sum(val) over(partition by year order by month)
  6. sum(val) over(partition by year order by month rows between unbounded preceding and current row)
  7. # 以下两种方式不等效
  8. sum(val) over(partition by year rows between unbounded preceding and current row)
  9. sum(val) over(partition by year order by month rows between unbounded preceding and current row)
  10. # current row 应该是和 order by 同时出现,要不然会导致数据错位

3. ntile

切片:用于将分组数据按照顺序切分成n片,返回当前切片值;不支持 rows between;如果切片不均匀,默认增加第一个切片的分布(比如有6条数据,分4组,数量依次为2 2 1 1)

  1. # 统计一个月内,val 最多的前 1/n
  2. ntile(n) over(partition by month order by val desc) as rn
  3. rn = 1 就是最终想要的结果,前提是数据可以被均匀分片

4. row_number、rank、dense_rank

  • row_number:行号
  • rank:排名——结果中可能有空位 eg:1 2 2 4
  • dense_rank:排名——结果中无空位 eg:1 2 2 3

5. cume_dist

计算公式:(小于等于当前值的行数 / 分组内的总行数)

  1. # 统计小于等于当前薪水的人占部门内总人数的比例
  2. cume_dist() over(partition by dept order by salary)

6. percent_rank

计算公式:(分组内当前行的rank值 - 1 / 分组内总行数 - 1)

7. lag(col, n, DEFAULT)

统计窗口内往上第 n 行值

三个参数分别是:列名;往上第 n 行(可选,默认是1);当往上第 n 行为 NULL 的时候,取默认值,如不指定,则为 NULL

8. lead(col, n, DEFAULT)

统计窗口内往下第 n 行值

三个参数分别是:列名;往下第 n 行(可选,默认是1);当往下第 n 行为 NULL 的时候,取默认值,如不指定,则为 NULL

9. first_value(col)

取分组内排序后,取第一个的 col

  1. first_value(col) over(partition by ... order by ...)

10. last_value(col)

取分组内排序后,截止到当前行,最后一个的 col => 相当于分组排序后,取当前这一行的 col

  1. last_value(col) over(partition by ... order by ...)

如果不指定 order by,则默认按照记录在文件中的偏移量进行排序,会出现错误的结果

如果要取分组内排序后最后一个 col,可以换成下面的形式

  1. first_value(col) over(partition by ... order by ... desc)

11. grouping sets

在一个 group by 查询中,根据不同的维度组合进行聚合,等价于将不同维度的 group by 结果集进行 union all

  1. select year, month, count(1)a, grouping__id
  2. from ...
  3. group by year, month
  4. grouping sets(year, month, (year, month))
  5. order by grouping__id
  6. 等价于
  7. select year, 'null' as month, count(1)a, 1 as grouping__id
  8. from ...
  9. group by year, month
  10. union all
  11. select 'null' as year, month, count(1)a, 2 as grouping__id
  12. from ...
  13. group by month
  14. union all
  15. select year, month, count(1)a, 3 as grouping__id
  16. from ...
  17. group by year, month

grouping sets (col1, col2 ...) 使用前必须要先写 group by (col1, col2 ...), grouping sets 表示在 group by 括号内出现的字段组合的情况,所以 grouping sets 出现的字段肯定是在 group by 中出现过的

grouping__id 表示结果属于哪一个分组集合,只能和 grouping sets 组合着用,单独使用报错。有两个下划线!!!

12. cube

根据 group by 的维度的所有组合进行聚合。

  1. select year, month, count(1)a, grouping__id
  2. from ...
  3. group by year, month
  4. with cube
  5. order by grouping__id
  6. 等价于以下四种情况 union all
  7. 1. 相当于直接 count(1)a
  8. 2. 按照 year 来分组
  9. 3. 按照 month 来分组
  10. 4. 按照 year&month 来分组

13. rollup

是 cube 的子集,以最左侧的维度为主,从该维度进行层级聚合。

  1. select year, month, count(1)a, grouping__id
  2. from ...
  3. group by year, month
  4. with rollup
  5. order by grouping__id
  6. 等价于先进行 with cube操作,即以下四种情况 union all
  7. 1. 相当于直接 count(1)a
  8. 2. 按照 year 来分组
  9. 3. 按照 month 来分组
  10. 4. 按照 year&month 来分组
  11. 然后 year 是最左侧的维度,则按照 year 来进行层级聚合,过滤掉 year NULL 的记录(但是第1中情况对所有数据进行count(1)的这一条数据会依旧保存)

Hive Sql的窗口函数的更多相关文章

  1. Hive中的窗口函数

    简介 本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析 概念 我们都知道在sql中有一类函数叫做聚合函数,例如su ...

  2. Hive Sql的日常使用笔记

    date: 2019-03-22 17:02:37 updated: 2020-04-08 16:00:00 Hive Sql的日常使用笔记 1. distinct 和 group by distin ...

  3. 最强最全面的Hive SQL开发指南,超四万字全面解析

    本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些! 第一部分: hive模糊搜索表 ...

  4. Hive(十)【窗口函数】

    目录 一.定义 窗口函数: 标准聚合函数 分析排名函数 二.语法 (1)窗口函数 over([partition by 字段] [order by 字段] [ 窗口语句]) (2)窗口语句 三.需求练 ...

  5. 【hive】——Hive sql语法详解

    Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查 ...

  6. Hive SQL 监控系统 - Hive Falcon

    1.概述 在开发工作当中,提交 Hadoop 任务,任务的运行详情,这是我们所关心的,当业务并不复杂的时候,我们可以使用 Hadoop 提供的命令工具去管理 YARN 中的任务.在编写 Hive SQ ...

  7. hive sql 语法详解

    Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查 ...

  8. Hive sql 语法解读

    一. 创建表 在官方的wiki里,example是这种: Sql代码   CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name d ...

  9. Spark(Hive) SQL中UDF的使用(Python)

    相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内 ...

随机推荐

  1. 容器云平台No.2~kubeadm创建高可用集群v1.19.1

    通过kubernetes构建容器云平台第二篇,最近刚好官方发布了V1.19.0,本文就以最新版来介绍通过kubeadm安装高可用的kubernetes集群. 市面上安装k8s的工具很多,但是用于学习的 ...

  2. HTML+CSS使用swiper快速生成最简单、最快捷、最易看懂的轮播图

    1.  在网页顶部输入swiper.com.con,进入swiper官网 2.   点击" API文档",获取轮播图代码的地方 3.   点击左侧"swiper初始化&q ...

  3. Asp.Net Core SignalR 系列博客

    系列 SignalR+Vue SignalR+Vue 服务端向客户端发送信息 SignalR+Vue+Log4net 实时日志推送 待定...... 源码地址:https://github.com/Q ...

  4. (转)HttpServletResquest对象

    HttpServletRequest对象代表客户端的请求,当客户端通过HTTP协议访问服务器时,HTTP请求头中的所有信息都封装在这个对象中,通过这个对象提供的方法,可以获得客户端请求的所有信息. 1 ...

  5. 阿里内部推出Spring响应式微服务Boot2Cloud文档

    今天要给大家推荐的是Spring响应式微服务SpringBoot2+Spring5+SpringCloud实战的内容,将从目录.主要内容和面向的读者三部分给大家介绍,希望大家能够喜欢!!!(本文整理自 ...

  6. 【漏洞复现】PHPmyadmin 4.8.1后台Getshell新姿势

    原文地址:https://mp.weixin.qq.com/s/HZcS2HdUtqz10jUEN57aog 早上看到群里在讨论一个新姿势,phpmyadmin后台getshell,不同于以往需要知道 ...

  7. 【题解】[LNOI2014]LCA

    题目戳我 \(\text{Solution:}\) 这题的转化思想很巧妙-- 考虑把\(dep\)给拆掉. 首先可以明确的是,每一个\(LCA\)一定在\(root\to z\)的路径上. 考虑一个\ ...

  8. ✅Vue选择图像

    下载 Vue选择图像Vue选择图像 Vue 2.用于从列表中选择图像的组件 演示 https://mazipan.github.io/vue-select-image/ 安装 #纱 纱添加vue-se ...

  9. Golang是如何操作excel的?

    关键术语介绍 为了方便开源库的快速上手,我们先来了解 excel 中的几个关键术语,如下图所示,①为sheet,也就是表格中的页签:②为row,代表 excel 中的一行:③为cell,代表 exce ...

  10. JS常见加密混淆方式

    目录 前端js常见混淆加密保护方式 eval方法等字符串参数 emscripten WebAssembly js混淆实现 JSFuck AAEncode JJEncode 代码压缩 变量名混淆 字符串 ...