Hive级联求和


  • 建表
    CREATE TABLE t_salary_detail(
    username string,
    month string,
    salary INT )
    ROW format delimited FIELDS TERMINATED BY ',';
  • 导入数据
    LOAD DATA LOCAL inpath '/export/servers/hivedatas/click-part-r-00000' INTO TABLE t_salary_detail;
    +---------------------------+------------------------+-------------------------+--+
    | t_salary_detail.username | t_salary_detail.month | t_salary_detail.salary |
    +---------------------------+------------------------+-------------------------+--+
    | A | 2015-01 | 5 |
    | A | 2015-01 | 15 |
    | B | 2015-01 | 5 |
    | A | 2015-01 | 8 |
    | B | 2015-01 | 25 |
    | A | 2015-01 | 5 |
    | A | 2015-02 | 4 |
    | A | 2015-02 | 6 |
    | B | 2015-02 | 10 |
    | B | 2015-02 | 5 |
    | A | 2015-03 | 7 |
    | A | 2015-03 | 9 |
    | B | 2015-03 | 11 |
    | B | 2015-03 | 6 |
    +---------------------------+------------------------+-------------------------+--+

  • 思路

    累积求和其实就是通过inner join表本身来实现。首先要先明白 统计每个用户每个月总共获得多少小费 的hql语句怎么写
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month;
    +-----------+----------+------+--+
    | username | month | _c2 |
    +-----------+----------+------+--+
    | A | 2015-01 | 33 |
    | A | 2015-02 | 10 |
    | A | 2015-03 | 16 |
    | B | 2015-01 | 30 |
    | B | 2015-02 | 15 |
    | B | 2015-03 | 17 |
    +-----------+----------+------+--+

    现在通过inner join连接自己

    SELECT a.*,b.*
    FROM (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) a
    INNER JOIN (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) b
    ON a.username = b.username;
    +-------------+----------+--------+-------------+----------+--------+--+
    | a.username | a.month | a._c2 | b.username | b.month | b._c2 |
    +-------------+----------+--------+-------------+----------+--------+--+
    | A | 2015-01 | 33 | A | 2015-01 | 33 |
    | A | 2015-01 | 33 | A | 2015-02 | 10 |
    | A | 2015-01 | 33 | A | 2015-03 | 16 |
    | A | 2015-02 | 10 | A | 2015-01 | 33 |
    | A | 2015-02 | 10 | A | 2015-02 | 10 |
    | A | 2015-02 | 10 | A | 2015-03 | 16 |
    | A | 2015-03 | 16 | A | 2015-01 | 33 |
    | A | 2015-03 | 16 | A | 2015-02 | 10 |
    | A | 2015-03 | 16 | A | 2015-03 | 16 |
    | B | 2015-01 | 30 | B | 2015-01 | 30 |
    | B | 2015-01 | 30 | B | 2015-02 | 15 |
    | B | 2015-01 | 30 | B | 2015-03 | 17 |
    | B | 2015-02 | 15 | B | 2015-01 | 30 |
    | B | 2015-02 | 15 | B | 2015-02 | 15 |
    | B | 2015-02 | 15 | B | 2015-03 | 17 |
    | B | 2015-03 | 17 | B | 2015-01 | 30 |
    | B | 2015-03 | 17 | B | 2015-02 | 15 |
    | B | 2015-03 | 17 | B | 2015-03 | 17 |
    +-------------+----------+--------+-------------+----------+--------+--+

    得到以上结果可以看出,我们可以利用b表的salary列来进行累积求和,因为我们要求每个用户每个月总共获得小费,到2月份是要将2月和前一个月的小费累计,也就是表中33,33+10,33+10+16这样

    SELECT a.*,b.*
    FROM (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) a
    INNER JOIN (
    SELECT username,month,sum(salary)
    FROM t_salary_detail
    GROUP BY username,month ) b
    ON a.username = b.username
    WHERE b.month <= a.month;
    +-------------+----------+--------+-------------+----------+--------+--+
    | a.username | a.month | a._c2 | b.username | b.month | b._c2 |
    +-------------+----------+--------+-------------+----------+--------+--+
    | A | 2015-01 | 33 | A | 2015-01 | 33 |
    | A | 2015-02 | 10 | A | 2015-01 | 33 |
    | A | 2015-02 | 10 | A | 2015-02 | 10 |
    | A | 2015-03 | 16 | A | 2015-01 | 33 |
    | A | 2015-03 | 16 | A | 2015-02 | 10 |
    | A | 2015-03 | 16 | A | 2015-03 | 16 |
    | B | 2015-01 | 30 | B | 2015-01 | 30 |
    | B | 2015-02 | 15 | B | 2015-01 | 30 |
    | B | 2015-02 | 15 | B | 2015-02 | 15 |
    | B | 2015-03 | 17 | B | 2015-01 | 30 |
    | B | 2015-03 | 17 | B | 2015-02 | 15 |
    | B | 2015-03 | 17 | B | 2015-03 | 17 |
    +-------------+----------+--------+-------------+----------+--------+--+

    得到以上结果后,只需要按照Month分组,对salary列用SUM函数即可

    SELECT SUM(bSalSum)
    FROM (
    SELECT a.month AS aMonth,a.username AS aUser,a.salSum AS aSalSum,
    b.month AS bMonth,b.username AS bUser,b.salSum AS bSalSum
    FROM (
    SELECT month,username,SUM(salary) AS salSum
    FROM t_salary_detail
    GROUP BY username,month ) a
    INNER JOIN (
    SELECT month,username,SUM(salary) AS salSum
    FROM t_salary_detail
    GROUP BY username,month ) b
    ON a.username = b.username
    WHERE b.month <= a.month ) t
    GROUP BY aUser,aMonth;
    +------+--+
    | _c0 |
    +------+--+
    | 33 |
    | 43 |
    | 59 |
    | 30 |
    | 45 |
    | 62 |
    +------+--+

【Hadoop离线基础总结】Hive级联求和的更多相关文章

  1. 【Hadoop离线基础总结】Hive调优手段

    Hive调优手段 最常用的调优手段 Fetch抓取 MapJoin 分区裁剪 列裁剪 控制map个数以及reduce个数 JVM重用 数据压缩 Fetch的抓取 出现原因 Hive中对某些情况的查询不 ...

  2. 【Hadoop离线基础总结】流量日志分析网站整体架构模块开发

    目录 数据仓库设计 维度建模概述 维度建模的三种模式 本项目中数据仓库的设计 ETL开发 创建ODS层数据表 导入ODS层数据 生成ODS层明细宽表 统计分析开发 流量分析 受访分析 访客visit分 ...

  3. 【Hadoop离线基础总结】oozie的安装部署与使用

    目录 简单介绍 概述 架构 安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...

  4. 【Hadoop离线基础总结】Hue的简单介绍和安装部署

    目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...

  5. 【Hadoop离线基础总结】impala简单介绍及安装部署

    目录 impala的简单介绍 概述 优点 缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...

  6. 【Hadoop离线基础总结】Sqoop常用命令及参数

    目录 常用命令 常用公用参数 公用参数:数据库连接 公用参数:import 公用参数:export 公用参数:hive 常用命令&参数 从关系表导入--import 导出到关系表--expor ...

  7. Hadoop(分布式系统基础架构)---Hive与HBase区别

    对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用.  Hive是什么? Apache Hive是 ...

  8. 【Hadoop离线基础总结】Hue与Hive集成

    目录 1.更改hue的配置hue.ini 2.启动hive的metastore以及hiveserver2服务 3.启动hue进程,查看Hive是否与Hue集成成功 1.更改hue的配置hue.ini ...

  9. 【Hadoop离线基础总结】Hive的基本操作

    Hive的基本操作 创建数据库与创建数据库表 创建数据库的相关操作 创建数据库:CREATE TABLE IF NOT EXISTS myhive hive创建表成功后的存放位置由hive-site. ...

随机推荐

  1. sql 系统表协助集合

    一.判断字段是否存在: select * from syscolumns where id=object_id('表') and name='字段'

  2. IP连接数据库语句

    select  *  from [19.200.108.2].[jsoctnetv6.0].[CardInfo] where ICNO='32719'

  3. python在办公时能给我们带来什么?

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:谦睿科技教育 PS:如有需要Python学习资料的小伙伴可以加点击下方 ...

  4. stand up meeting 12-8

    根据计划今天项目组成员和travis老师毕然同学进行了最后一次关于design和feature的确认meeting. 项目design和UI的改动较大,feature改动较小,需对UI进行重新整合,对 ...

  5. Python程序设计实验报告一:熟悉IDLE和在线编程平台

    安徽工程大学 Python程序设计 实验报告 班级   物流191   姓名  崔攀  学号3190505136 成绩_____           日期     2020.3.8     指导老师  ...

  6. E - Sum of gcd of Tuples (Hard) Atcoder 162 E(容斥)

    题解:这个题目看着挺吓人的,如果仔细想想的话,应该能想出来.题解还是挺好的理解的. 首先设gcd(a1,a2,a3...an)=i,那么a1~an一定是i的倍数,所以ai一共有k/i种取值.有n个数, ...

  7. Linux学习笔记(八)权限管理命令

    权限管理命令 权限位含义 chmod chown chgrp umask默认权限 权限位含义 第1位代表文件类型 "-":普通文件 "b":块设备文件 &quo ...

  8. Springboot:员工管理之添加员工(十(7))

    构建员工添加请求 com\springboot\controller\EmployeeController.java /*调转到员工添加页 携带部门信息 restful风格*/ @GetMapping ...

  9. 轻量级mysql安装教程-避免采坑

    1:安装包获取 安装了很多次,来来回回踩,踩出了一片光明大道,简单好用. 百度网盘获取:链接:https://pan.baidu.com/s/13frFBTODaMeADZOHj5KdJQ 提取码:a ...

  10. JasperReports入门教程(三):Paramters,Fields和Detail基本组件介绍

    JasperReports入门教程(三):Paramter,Field和Detail基本组件介绍 前言 前两篇博客带领大家进行了入门,做出了第一个例子.也解决了中文打印的问题.大家跟着例子也做出了de ...