分组求排名

相信好多使用Mysql的用户一定对分组求排名的需求感到发怵.
但是在hive或者oracle来说就能简单实现.
采用窗口函数:rank() over() / row_number() over() / dense_rank() over()函数就能轻松完成.

窗口函数

我们可以理解为我们先把需要分析的字段select出来,然后通过窗口函数进行分析.
所以窗口函数产生的结果一定是一对一的,即便在窗口中使用分组操作产生相同的值也每行数据都有.

示例

select

    user_id,user_type,sales, --窗口函数的分析字段

    RANK() over (partition by user_type order by sales desc) as rank,

    ROW_NUMBER() over (partition by user_type order by sales desc) as row_number,

    DENSE_RANK() over (partition by user_type order by sales desc) as dense_rank

from

    order_detail;

根据窗口函数的理解,我们来看上述例子
- 要分析的字段有 user_type,sales,执行过程对这些字段select出来(可能select不太准确,但是要先取得这些要用于分析的字段)
- 使用窗口函数进行分析 over() 是窗口函数,over()里面一般要写partition by 和 order by来对分析的数据进行分组和排序
- over() 函数前边要定义分析策略,比如 rank(), row_number(),dense_rank()都是不同的分析策略.

结果

user_id	user_type	sales	rank	row_number	dense_rank
wutong	new	6	1	1	1
qishili	new	5	2	2	2
lilisi	new	5	2	3	2
wanger	new	3	4	4	3
zhangsa	new	2	5	5	4
qibaqiu	new	1	6	6	5
liiu	new	1	6	7	5
liwei	old	3	1	1	1
wangshi	old	2	2	2	2
lisi	old	1	3	3	3

如上述表格,rank() / row_number() / dense_rank() 都是进行排名.
- rank()在处理相同排名的时候根据同排名数据数量进行顺延排名
- dense_rank()在处理相同排名的时候不会顺延排名
- row_number()如函数名,就是单单是排名后的行数

HIVE2.10以后over()函数支持对聚合函数的支持

SELECT rank() OVER (ORDER BY sum(b))

FROM table

GROUP BY a;

上面等于于

SELECT sum_b rank() OVER (ORDER BY sum_b)

FROM(

    SELECT SUM(b) AS sum_b

    FROM table

    GROUP BY a

) t;

【hive】分组求排名的更多相关文章

Hive - - 分组求最大，最小(加行键)
Hive - - 分组求最大,最小(加行键) 数据: 1325927 陕西汉中 084 08491325928 陕西汉中 084 08491325930 陕西延安 084 08421325931 ...
hive 分组排序，topN
hive 分组排序,topN 语法格式:row_number() OVER (partition by COL1 order by COL2 desc ) rankpartition by:类似hiv ...
POJ-1180 Batch Scheduling （分组求最优值+斜率优化）
题目大意:有n个任务,已知做每件任务所需的时间,并且每件任务都对应一个系数fi.现在,要将这n个任务分成若干个连续的组,每分成一个组的代价是完成这组任务所需的总时间加上一个常数S后再乘以这个区间的系数 ...
Hive分组取第一条记录
需求交易系统,财务要求维护每个用户首个交易完成的订单数据(首单表,可取每个用户交易完成时间最老的订单数据).举例: 简写版的表结构: 表数据: 则财务希望汇总记录如下: uid order_id ...
第3节 mapreduce高级：8、9、自定义分区实现分组求取top1
自定义GroupingComparator求取topN GroupingComparator是mapreduce当中reduce端的一个功能组件,主要的作用是决定哪些数据作为一组,调用一次reduce ...
工作总结 EF GroupBy() Select() Select() 中 Count() 分组求总
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
pandas对时间列分组求diff遇到的问题
例子: df = pd.DataFrame() df['A'] = [1, 1, 2] df['B'] = [datetime.date(2018, 1, 2), datetime.date(2018 ...
第2节网站点击流项目(下)：3、流量统计分析，分组求topN
四. 模块开发----统计分析 select * from ods_weblog_detail limit 2;+--------------------------+---------------- ...
hive分组排序取top N
pig可以轻松获取TOP n.书上有例子 hive中比较麻烦,没有直接实现的函数,可以写udf实现.还有个比较简单的实现方法: 用row_number,生成排名序列号.然后外部分组后按这个序列号多虑, ...

随机推荐

Django - CBV、FBV
一.FBV FBV(function base views) 就是在视图里使用函数处理请求. 在之前django的学习中,我们一直使用的是这种方式. 二.CBV CBV(class base view ...
python调用API
相信做过自动化运维的同学都用过API接口来完成某些动作.API是一套成熟系统所必需的接口,可以被其他系统或脚本来调用,这也是自动化运维的必修课. 本文主要介绍Python中调用API的几种方式,下面是 ...
如何区分不同用户——Cookie/Session机制详解
会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话.常用的会话跟踪技术是Cookie与Session.Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端 ...
unittest框架（三）unittest+yaml数据驱动
学习完了如何用yaml文件管理用例,如何进行单元测试,如何产生漂亮的测试报告,那么结合这几点,我们简单学习下unittest+yaml数据驱动来测试. 第一步:首先,我们建一个yaml文件,管理用例, ...
2.2 The Object Model -- Reopening Classes and Instances
1. 你不需要一开始定义一个类的全部内容,你可以通过使用reopen方法重新打开一个类并定义新的属性. Person.reopen({ isPerson: true }); Person.create ...
Bootstrap按钮组学习
简介通过按钮组容器把一组按钮放在同一行里.通过与按钮插件联合使用,可以设置为单选框或多选框的样式和行为. 按钮组中的工具提示和弹出框需要特别的设置当为 .btn-group 中的元素应用工具提示或 ...
在HTML代码中要如何插入空格？
超文本标记语言(HTML)会自动忽略空格.平常在编写代码的时候,用空格键.Tab键以及回车键产生的空格,都会被HTML自动忽略.那么我们该用什么方法来实现HTML的空格效果呢?有专门的空格代码吗?不少 ...
028-B+树(一)
B+ 树这部分主要学习:什么是B+树? 了解了 B 树后再来了解下它的变形版:B+ 树,它比 B 树的查询性能更高. 一棵 B+ 树需要满足以下条件: 节点的子树数和关键字数相同(B 树是关键字数比 ...
Python:执行精确的浮点数运算
需要对浮点数执行精确的计算操作,并且不希望有任何小误差的出现. 浮点数的一个普遍问题是它们并不能精确的表示十进制数.并且,即使是最简单的数学运算也会产生小的误差,比如: >>> a ...
Python3 pandas用法大全
Python3 pandas用法大全一.生成数据表 1.首先导入pandas库,一般都会用到numpy库,所以我们先导入备用: import numpy as np import pandas as ...

【hive】分组求排名

分组求排名

窗口函数

示例

结果

HIVE2.10以后over()函数支持对聚合函数的支持

【hive】分组求排名的更多相关文章

随机推荐

热门专题