Hive函数：GROUPING SETS,GROUPING_

参考：lxw大数据田地：http://lxw1234.com/archives/2015/04/193.htm

数据准备：

CREATE EXTERNAL TABLE test_data (

month STRING,

day STRING,

cookieid STRING

) ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

stored as textfile location '/user/jc_rc_ftp/test_data';

select * from test_data l;

+----------+-------------+-------------+--+

| l.month  |    l.day    | l.cookieid  |

+----------+-------------+-------------+--+

| 2015-03  | 2015-03-10  | cookie1     |

| 2015-03  | 2015-03-10  | cookie5     |

| 2015-03  | 2015-03-12  | cookie7     |

| 2015-04  | 2015-04-12  | cookie3     |

| 2015-04  | 2015-04-13  | cookie2     |

| 2015-04  | 2015-04-13  | cookie4     |

| 2015-04  | 2015-04-16  | cookie4     |

| 2015-03  | 2015-03-10  | cookie2     |

| 2015-03  | 2015-03-10  | cookie3     |

| 2015-04  | 2015-04-12  | cookie5     |

| 2015-04  | 2015-04-13  | cookie6     |

| 2015-04  | 2015-04-15  | cookie3     |

| 2015-04  | 2015-04-15  | cookie2     |

| 2015-04  | 2015-04-16  | cookie1     |

+----------+-------------+-------------+--+

14 rows selected (0.249 seconds)

GROUPING SETS

在一个GROUP BY查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

GROUPING SETS (month,day)

ORDER BY GROUPING__ID;

等价于

SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM test_data GROUP BY month

UNION ALL

SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM test_data GROUP BY day

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| 2015-04  | NULL        | 6   | 1             |

| 2015-03  | NULL        | 5   | 1             |

| NULL     | 2015-04-16  | 2   | 2             |

| NULL     | 2015-04-15  | 2   | 2             |

| NULL     | 2015-04-13  | 3   | 2             |

| NULL     | 2015-04-12  | 2   | 2             |

| NULL     | 2015-03-12  | 1   | 2             |

| NULL     | 2015-03-10  | 4   | 2             |

+----------+-------------+-----+---------------+--+

8 rows selected (177.299 seconds)

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

GROUPING SETS (month,day,(month,day))

ORDER BY GROUPING__ID;

等价于

SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM test_data GROUP BY month

UNION ALL

SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM test_data GROUP BY day

UNION ALL

SELECT month,day,COUNT(DISTINCT cookieid) AS uv,3 AS GROUPING__ID FROM test_data GROUP BY month,day

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| 2015-04  | NULL        | 6   | 1             |

| 2015-03  | NULL        | 5   | 1             |

| NULL     | 2015-03-10  | 4   | 2             |

| NULL     | 2015-04-16  | 2   | 2             |

| NULL     | 2015-04-15  | 2   | 2             |

| NULL     | 2015-04-13  | 3   | 2             |

| NULL     | 2015-04-12  | 2   | 2             |

| NULL     | 2015-03-12  | 1   | 2             |

| 2015-04  | 2015-04-16  | 2   | 3             |

| 2015-04  | 2015-04-12  | 2   | 3             |

| 2015-04  | 2015-04-13  | 3   | 3             |

| 2015-03  | 2015-03-12  | 1   | 3             |

| 2015-03  | 2015-03-10  | 4   | 3             |

| 2015-04  | 2015-04-15  | 2   | 3             |

+----------+-------------+-----+---------------+--+

备注：其中的 GROUPING__ID，表示结果属于哪一个分组集合。

CUBE

根据GROUP BY的维度的所有组合进行聚合。

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

WITH CUBE

ORDER BY GROUPING__ID;

等价于

SELECT NULL,NULL,COUNT(DISTINCT cookieid) AS uv,0 AS GROUPING__ID FROM test_data

UNION ALL

SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM test_data GROUP BY month

UNION ALL

SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM test_data GROUP BY day

UNION ALL

SELECT month,day,COUNT(DISTINCT cookieid) AS uv,3 AS GROUPING__ID FROM test_data GROUP BY month,day

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| NULL     | NULL        | 7   | 0             |

| 2015-03  | NULL        | 5   | 1             |

| 2015-04  | NULL        | 6   | 1             |

| NULL     | 2015-04-16  | 2   | 2             |

| NULL     | 2015-04-15  | 2   | 2             |

| NULL     | 2015-04-13  | 3   | 2             |

| NULL     | 2015-04-12  | 2   | 2             |

| NULL     | 2015-03-12  | 1   | 2             |

| NULL     | 2015-03-10  | 4   | 2             |

| 2015-04  | 2015-04-12  | 2   | 3             |

| 2015-04  | 2015-04-16  | 2   | 3             |

| 2015-03  | 2015-03-12  | 1   | 3             |

| 2015-03  | 2015-03-10  | 4   | 3             |

| 2015-04  | 2015-04-15  | 2   | 3             |

| 2015-04  | 2015-04-13  | 3   | 3             |

+----------+-------------+-----+---------------+--+

ROLLUP

是CUBE的子集，以最左侧的维度为主，从该维度进行层级聚合。

比如，以month维度进行层级聚合：

SELECT

month,

day,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY month,day

WITH ROLLUP

ORDER BY GROUPING__ID;

可以实现这样的上钻过程：月天的UV->月的UV->总UV

+----------+-------------+-----+---------------+--+

|  month   |     day     | uv  | grouping__id  |

+----------+-------------+-----+---------------+--+

| NULL     | NULL        | 7   | 0             |

| 2015-04  | NULL        | 6   | 1             |

| 2015-03  | NULL        | 5   | 1             |

| 2015-04  | 2015-04-16  | 2   | 3             |

| 2015-04  | 2015-04-15  | 2   | 3             |

| 2015-04  | 2015-04-13  | 3   | 3             |

| 2015-04  | 2015-04-12  | 2   | 3             |

| 2015-03  | 2015-03-12  | 1   | 3             |

| 2015-03  | 2015-03-10  | 4   | 3             |

+----------+-------------+-----+---------------+--+

--把month和day调换顺序，则以day维度进行层级聚合：

SELECT

day,

month,

COUNT(DISTINCT cookieid) AS uv,

GROUPING__ID

FROM test_data

GROUP BY day,month

WITH ROLLUP

ORDER BY GROUPING__ID;

+-------------+----------+-----+---------------+--+

|     day     |  month   | uv  | grouping__id  |

+-------------+----------+-----+---------------+--+

| NULL        | NULL     | 7   | 0             |

| 2015-04-12  | NULL     | 2   | 1             |

| 2015-04-15  | NULL     | 2   | 1             |

| 2015-03-12  | NULL     | 1   | 1             |

| 2015-04-16  | NULL     | 2   | 1             |

| 2015-03-10  | NULL     | 4   | 1             |

| 2015-04-13  | NULL     | 3   | 1             |

| 2015-04-16  | 2015-04  | 2   | 3             |

| 2015-04-15  | 2015-04  | 2   | 3             |

| 2015-04-13  | 2015-04  | 3   | 3             |

| 2015-03-12  | 2015-03  | 1   | 3             |

| 2015-03-10  | 2015-03  | 4   | 3             |

| 2015-04-12  | 2015-04  | 2   | 3             |

+-------------+----------+-----+---------------+--+

可以实现这样的上钻过程：
天月的UV->天的UV->总UV
（这里，根据天和月进行聚合，和根据天聚合结果一样，因为有父子关系，如果是其他维度组合的话，就会不一样）

Hive函数：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP的更多相关文章

Hive高阶聚合函数 GROUPING SETS、Cube、Rollup
-- GROUPING SETS作为GROUP BY的子句,允许开发人员在GROUP BY语句后面指定多个统计选项,可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起 ...
Hive SQL grouping sets 用法
概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时.天.月的UV数. ...
hive中grouping sets的使用
hive中grouping sets 数量较多时如何处理? 可以使用如下设置来 set hive.new.job.grouping.set.cardinality = 30; 这条设置的意义在于 ...
GROUPING SETS、CUBE、ROLLUP
其实还是写一个Demo 比较好 USE tempdb IF OBJECT_ID( 'dbo.T1' , 'U' )IS NOT NULL BEGIN DROP TABLE dbo.T1; END; G ...
Hive学习之路（十七）Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP
概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时.天.月的UV数. ...
解析数仓OLAP函数：ROLLUP、CUBE、GROUPING SETS
摘要:GaussDB(DWS) ROLLUP,CUBE,GROUPING SETS等OLAP函数的原理解析. 本文分享自华为云社区<GaussDB(DWS) OLAP函数浅析>,作者: D ...
Oracle的rollup、cube、grouping sets函数
转载自:https://blog.csdn.net/huang_xw/article/details/6402396 Oracle的group by除了基本用法以外,还有3种扩展用法,分别是rollu ...
SQL Server2008 程序设计汇总 GROUP BY，WITH ROLLUP，WITH CUBE，GROUPING SETS(..)
--SQL Server2008 程序设计汇总 GROUP BY ,WITH ROLLUP WITH CUBE GROUPING SET(..) /*********************** ...
TSQL 分组集（Grouping Sets）
分组集(Grouping Sets)是多个分组的并集,用于在一个查询中,按照不同的分组列对集合进行聚合运算,等价于对单个分组使用“union all”,计算多个结果集的并集.使用分组集的聚合查询,返回 ...

随机推荐

echarts 移动端地图数据可视化教程
如上效果图: 以下未代码: <!doctype html> <html lang="en"> <head> <meta charset ...
原生js写的flybird小游戏
游戏地址:http://zangzhihong.jusukeji.com/flybird/index.html html部分 <!DOCTYPE html> <!-- This ...
webpack打包不识别es6语法的坑
今天Vue项目npm run build 后webpack,报错uglifyjs,自己研究了一下,翻译过来,意思是不识别项目中写的高级语法,这里要把项目里es6语法转es5让浏览器识别, 也就是web ...
Codeforces Round #471 (Div. 2) C. Sad powers
首先可以前缀和 ans = solve(R) - solve(L-1) 对于solve(x) 1-x当中符合条件的数分两种情况 3,5,7,9次方的数,注意这地方不能含有平方次平方数 #inclu ...
Spring Boot Junit单元测试
http://blog.csdn.net/catoop/article/details/50752964
【jQuery】 JQ和AJAX
AJAX AJAX全称异步 JavaScript 和 XML(Asynchronous JavaScript and XML),是一种用于网页前端和网站后台进行数据交互的手段.关于AJAX的详细介绍在 ...
Algorithm --> 矩阵链乘法
动态规划--矩阵链乘法 1.矩阵乘法 Note:只有当矩阵A的列数与矩阵B的行数相等时A×B才有意义.一个m×r的矩阵A左乘一个r×n的矩阵B,会得到一个m×n的矩阵C. #include ...
关于换了手机后，导致原来连的fiddler抓不到新手机上的包的解决方法
原来我们测试都是一台安卓机,一台ios机,由于机子不够,所以安卓机都是自己的手机,可以连内网,也可以连外网但是最近这几天,不知道公司抽了什么风.把网都给限制了,只有公司的测试机,才能连内网测,结果我 ...
location和location.href跳转url的区别
使用 location = url 跳转,如果本地之前已经载入过该页面并有缓存,那么会直接读取本地的缓存,缓存机制是由本地浏览器设置决定的.状态码为: 200 OK (from cache) . ...
java之静态属性和静态方法
前言静态属性和方法必须用static修饰符静态属性和非静态属性的区别: 1.在内存中存放位置不同所有带static修饰符的属性或者方法都存放在内存中的方法区而非静态属性存放在内存中的堆区 ...

Hive函数：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

GROUPING SETS

CUBE

ROLLUP

Hive函数：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP的更多相关文章

随机推荐

热门专题