Hive级联求和


  • 建表
    CREATE TABLE t_salary_detail(
    username string,
    month string,
    salary INT )
    ROW format delimited FIELDS TERMINATED BY ',';
  • 导入数据
    LOAD DATA LOCAL inpath '/export/servers/hivedatas/click-part-r-00000' INTO TABLE t_salary_detail;
    +---------------------------+------------------------+-------------------------+--+
    | t_salary_detail.username | t_salary_detail.month | t_salary_detail.salary |
    +---------------------------+------------------------+-------------------------+--+
    | A | 2015-01 | 5 |
    | A | 2015-01 | 15 |
    | B | 2015-01 | 5 |
    | A | 2015-01 | 8 |
    | B | 2015-01 | 25 |
    | A | 2015-01 | 5 |
    | A | 2015-02 | 4 |
    | A | 2015-02 | 6 |
    | B | 2015-02 | 10 |
    | B | 2015-02 | 5 |
    | A | 2015-03 | 7 |
    | A | 2015-03 | 9 |
    | B | 2015-03 | 11 |
    | B | 2015-03 | 6 |
    +---------------------------+------------------------+-------------------------+--+

  • 思路

    累积求和其实就是通过inner join表本身来实现。首先要先明白 统计每个用户每个月总共获得多少小费 的hql语句怎么写
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month;
    +-----------+----------+------+--+
    | username | month | _c2 |
    +-----------+----------+------+--+
    | A | 2015-01 | 33 |
    | A | 2015-02 | 10 |
    | A | 2015-03 | 16 |
    | B | 2015-01 | 30 |
    | B | 2015-02 | 15 |
    | B | 2015-03 | 17 |
    +-----------+----------+------+--+

    现在通过inner join连接自己

    SELECT a.*,b.*
    FROM (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) a
    INNER JOIN (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) b
    ON a.username = b.username;
    +-------------+----------+--------+-------------+----------+--------+--+
    | a.username | a.month | a._c2 | b.username | b.month | b._c2 |
    +-------------+----------+--------+-------------+----------+--------+--+
    | A | 2015-01 | 33 | A | 2015-01 | 33 |
    | A | 2015-01 | 33 | A | 2015-02 | 10 |
    | A | 2015-01 | 33 | A | 2015-03 | 16 |
    | A | 2015-02 | 10 | A | 2015-01 | 33 |
    | A | 2015-02 | 10 | A | 2015-02 | 10 |
    | A | 2015-02 | 10 | A | 2015-03 | 16 |
    | A | 2015-03 | 16 | A | 2015-01 | 33 |
    | A | 2015-03 | 16 | A | 2015-02 | 10 |
    | A | 2015-03 | 16 | A | 2015-03 | 16 |
    | B | 2015-01 | 30 | B | 2015-01 | 30 |
    | B | 2015-01 | 30 | B | 2015-02 | 15 |
    | B | 2015-01 | 30 | B | 2015-03 | 17 |
    | B | 2015-02 | 15 | B | 2015-01 | 30 |
    | B | 2015-02 | 15 | B | 2015-02 | 15 |
    | B | 2015-02 | 15 | B | 2015-03 | 17 |
    | B | 2015-03 | 17 | B | 2015-01 | 30 |
    | B | 2015-03 | 17 | B | 2015-02 | 15 |
    | B | 2015-03 | 17 | B | 2015-03 | 17 |
    +-------------+----------+--------+-------------+----------+--------+--+

    得到以上结果可以看出,我们可以利用b表的salary列来进行累积求和,因为我们要求每个用户每个月总共获得小费,到2月份是要将2月和前一个月的小费累计,也就是表中33,33+10,33+10+16这样

    SELECT a.*,b.*
    FROM (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) a
    INNER JOIN (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) b
    ON a.username = b.username
    WHERE b.month <= a.month;
    +-------------+----------+--------+-------------+----------+--------+--+
    | a.username | a.month | a._c2 | b.username | b.month | b._c2 |
    +-------------+----------+--------+-------------+----------+--------+--+
    | A | 2015-01 | 33 | A | 2015-01 | 33 |
    | A | 2015-02 | 10 | A | 2015-01 | 33 |
    | A | 2015-02 | 10 | A | 2015-02 | 10 |
    | A | 2015-03 | 16 | A | 2015-01 | 33 |
    | A | 2015-03 | 16 | A | 2015-02 | 10 |
    | A | 2015-03 | 16 | A | 2015-03 | 16 |
    | B | 2015-01 | 30 | B | 2015-01 | 30 |
    | B | 2015-02 | 15 | B | 2015-01 | 30 |
    | B | 2015-02 | 15 | B | 2015-02 | 15 |
    | B | 2015-03 | 17 | B | 2015-01 | 30 |
    | B | 2015-03 | 17 | B | 2015-02 | 15 |
    | B | 2015-03 | 17 | B | 2015-03 | 17 |
    +-------------+----------+--------+-------------+----------+--------+--+

    得到以上结果后,只需要按照Month分组,对salary列用SUM函数即可

    SELECT SUM(bSalSum)
    FROM (
    SELECT a.month AS aMonth,a.username AS aUser,a.salSum AS aSalSum,
    b.month AS bMonth,b.username AS bUser,b.salSum AS bSalSum
    FROM (
    SELECT month,username,SUM(salary) AS salSum
    FROM t_salary_detail
    GROUP BY username,month ) a
    INNER JOIN (
    SELECT month,username,SUM(salary) AS salSum
    FROM t_salary_detail
    GROUP BY username,month ) b
    ON a.username = b.username
    WHERE b.month <= a.month ) t
    GROUP BY aUser,aMonth;
    +------+--+
    | _c0 |
    +------+--+
    | 33 |
    | 43 |
    | 59 |
    | 30 |
    | 45 |
    | 62 |
    +------+--+

【Hadoop离线基础总结】Hive级联求和的更多相关文章

  1. 【Hadoop离线基础总结】Hive调优手段

    Hive调优手段 最常用的调优手段 Fetch抓取 MapJoin 分区裁剪 列裁剪 控制map个数以及reduce个数 JVM重用 数据压缩 Fetch的抓取 出现原因 Hive中对某些情况的查询不 ...

  2. 【Hadoop离线基础总结】流量日志分析网站整体架构模块开发

    目录 数据仓库设计 维度建模概述 维度建模的三种模式 本项目中数据仓库的设计 ETL开发 创建ODS层数据表 导入ODS层数据 生成ODS层明细宽表 统计分析开发 流量分析 受访分析 访客visit分 ...

  3. 【Hadoop离线基础总结】oozie的安装部署与使用

    目录 简单介绍 概述 架构 安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...

  4. 【Hadoop离线基础总结】Hue的简单介绍和安装部署

    目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...

  5. 【Hadoop离线基础总结】impala简单介绍及安装部署

    目录 impala的简单介绍 概述 优点 缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...

  6. 【Hadoop离线基础总结】Sqoop常用命令及参数

    目录 常用命令 常用公用参数 公用参数:数据库连接 公用参数:import 公用参数:export 公用参数:hive 常用命令&参数 从关系表导入--import 导出到关系表--expor ...

  7. Hadoop(分布式系统基础架构)---Hive与HBase区别

    对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用.  Hive是什么? Apache Hive是 ...

  8. 【Hadoop离线基础总结】Hue与Hive集成

    目录 1.更改hue的配置hue.ini 2.启动hive的metastore以及hiveserver2服务 3.启动hue进程,查看Hive是否与Hue集成成功 1.更改hue的配置hue.ini ...

  9. 【Hadoop离线基础总结】Hive的基本操作

    Hive的基本操作 创建数据库与创建数据库表 创建数据库的相关操作 创建数据库:CREATE TABLE IF NOT EXISTS myhive hive创建表成功后的存放位置由hive-site. ...

随机推荐

  1. Python openpyxl使用操作和openpyxl操作

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取htt ...

  2. .NetCore程序在Linux上面部署的实现

    我们知道.NetCore能够实现跨平台的根本就是内置Kestrel服务器实现请求处理和不同操作系统上反向代理的实现.在windows操作系统上IIS反向代理配置非常简单.但是Linux上就较为麻烦了. ...

  3. 实现一个简单的基于动态代理的 AOP

    实现一个简单的基于动态代理的 AOP Intro 上次看基于动态代理的 AOP 框架实现,立了一个 Flag, 自己写一个简单的 AOP 实现示例,今天过来填坑了 目前的实现是基于 Emit 来做的, ...

  4. webform repeater 的使用

    1  repeater    定义: 重复器    根据数据库里的内容将repeater里的内容重复赋值 ,在itemtemplate下   配合<%# Eval(" ") ...

  5. s3fs-fuse 把 s3-like 对象存储挂载到本地

    s3fs-fuse 是一个采用 c++

  6. go的 三个点 ...

    这三个点,比较任性,可前可后,可攻可守... 举2个栗子: 1.func sub(arg ...int) (total int){} 2.argsArr = apend(argsArr[:3], ar ...

  7. 2019-2020-1 20199310《Linux内核原理与分析》第三周作业

    1.问题描述 计算机的3大法宝是存储程序计算机,函数调用堆栈和中断机制,存储程序计算机已经在上一个博客中进行具体描述,本文将在剩下两方面出发对操作系统是如何工作的进行学习和探讨. 2.解决过程 2.1 ...

  8. .Net平台GC VS JVM垃圾回收

    前言 不知道你平时是否关注程序内存使用情况,我是关注的比较少,正好借着优化本地一个程序的空对比了一下.Net平台垃圾回收和jvm垃圾回收,顺便用dotMemory看了程序运行后的内存快照,生成内存快照 ...

  9. SpringBoot应用操作Rabbitmq(topic交换器高级操作)

    一.topic交换器为主题交换器,可以根据路由key模糊匹配 实现模型图 二.实战 1.引入maven <dependency> <groupId>org.springfram ...

  10. KVM虚拟化平台环境部署

    一:安装依赖包 二:配置网卡 三:配置环境 实验环境: KVM01   192.168.200.10 关闭防火墙及相关的安全机制 [root@KVM01 ~]# systemctl stop fire ...