【Hadoop离线基础总结】Hive级联求和

Hive级联求和

建表

CREATE TABLE t_salary_detail(

username string,

month string,

salary INT )

ROW format delimited FIELDS TERMINATED BY ',';

导入数据

LOAD DATA LOCAL inpath '/export/servers/hivedatas/click-part-r-00000' INTO TABLE t_salary_detail;

+---------------------------+------------------------+-------------------------+--+

| t_salary_detail.username  | t_salary_detail.month  | t_salary_detail.salary  |

+---------------------------+------------------------+-------------------------+--+

| A                         | 2015-01                | 5                       |

| A                         | 2015-01                | 15                      |

| B                         | 2015-01                | 5                       |

| A                         | 2015-01                | 8                       |

| B                         | 2015-01                | 25                      |

| A                         | 2015-01                | 5                       |

| A                         | 2015-02                | 4                       |

| A                         | 2015-02                | 6                       |

| B                         | 2015-02                | 10                      |

| B                         | 2015-02                | 5                       |

| A                         | 2015-03                | 7                       |

| A                         | 2015-03                | 9                       |

| B                         | 2015-03                | 11                      |

| B                         | 2015-03                | 6                       |

+---------------------------+------------------------+-------------------------+--+

思路

累积求和其实就是通过inner join表本身来实现。首先要先明白 统计每个用户每个月总共获得多少小费 的hql语句怎么写

SELECT username,month,sum(salary)

FROM t_salary_detail

GROUP BY username,month;

+-----------+----------+------+--+

| username  |  month   | _c2  |

+-----------+----------+------+--+

| A         | 2015-01  | 33   |

| A         | 2015-02  | 10   |

| A         | 2015-03  | 16   |

| B         | 2015-01  | 30   |

| B         | 2015-02  | 15   |

| B         | 2015-03  | 17   |

+-----------+----------+------+--+

现在通过inner join连接自己

SELECT a.*,b.*

FROM (

SELECT username,month,sum(salary)

FROM t_salary_detail

GROUP BY username,month ) a

INNER JOIN (

SELECT username,month,sum(salary)

FROM t_salary_detail

GROUP BY username,month ) b

ON a.username = b.username;

+-------------+----------+--------+-------------+----------+--------+--+

| a.username  | a.month  | a._c2  | b.username  | b.month  | b._c2  |

+-------------+----------+--------+-------------+----------+--------+--+

| A           | 2015-01  | 33     | A           | 2015-01  | 33     |

| A           | 2015-01  | 33     | A           | 2015-02  | 10     |

| A           | 2015-01  | 33     | A           | 2015-03  | 16     |

| A           | 2015-02  | 10     | A           | 2015-01  | 33     |

| A           | 2015-02  | 10     | A           | 2015-02  | 10     |

| A           | 2015-02  | 10     | A           | 2015-03  | 16     |

| A           | 2015-03  | 16     | A           | 2015-01  | 33     |

| A           | 2015-03  | 16     | A           | 2015-02  | 10     |

| A           | 2015-03  | 16     | A           | 2015-03  | 16     |

| B           | 2015-01  | 30     | B           | 2015-01  | 30     |

| B           | 2015-01  | 30     | B           | 2015-02  | 15     |

| B           | 2015-01  | 30     | B           | 2015-03  | 17     |

| B           | 2015-02  | 15     | B           | 2015-01  | 30     |

| B           | 2015-02  | 15     | B           | 2015-02  | 15     |

| B           | 2015-02  | 15     | B           | 2015-03  | 17     |

| B           | 2015-03  | 17     | B           | 2015-01  | 30     |

| B           | 2015-03  | 17     | B           | 2015-02  | 15     |

| B           | 2015-03  | 17     | B           | 2015-03  | 17     |

+-------------+----------+--------+-------------+----------+--------+--+

得到以上结果可以看出，我们可以利用b表的salary列来进行累积求和，因为我们要求每个用户每个月总共获得小费，到2月份是要将2月和前一个月的小费累计，也就是表中33,33+10,33+10+16这样

SELECT a.*,b.*

FROM (

SELECT username,month,sum(salary)

FROM t_salary_detail

GROUP BY username,month ) a

INNER JOIN (

SELECT username,month,sum(salary)

FROM t_salary_detail

GROUP BY username,month ) b

ON a.username = b.username

WHERE b.month <= a.month;

+-------------+----------+--------+-------------+----------+--------+--+

| a.username  | a.month  | a._c2  | b.username  | b.month  | b._c2  |

+-------------+----------+--------+-------------+----------+--------+--+

| A           | 2015-01  | 33     | A           | 2015-01  | 33     |

| A           | 2015-02  | 10     | A           | 2015-01  | 33     |

| A           | 2015-02  | 10     | A           | 2015-02  | 10     |

| A           | 2015-03  | 16     | A           | 2015-01  | 33     |

| A           | 2015-03  | 16     | A           | 2015-02  | 10     |

| A           | 2015-03  | 16     | A           | 2015-03  | 16     |

| B           | 2015-01  | 30     | B           | 2015-01  | 30     |

| B           | 2015-02  | 15     | B           | 2015-01  | 30     |

| B           | 2015-02  | 15     | B           | 2015-02  | 15     |

| B           | 2015-03  | 17     | B           | 2015-01  | 30     |

| B           | 2015-03  | 17     | B           | 2015-02  | 15     |

| B           | 2015-03  | 17     | B           | 2015-03  | 17     |

+-------------+----------+--------+-------------+----------+--------+--+

得到以上结果后，只需要按照Month分组，对salary列用SUM函数即可

SELECT SUM(bSalSum)

FROM (

SELECT a.month AS aMonth,a.username AS aUser,a.salSum AS aSalSum,

b.month AS bMonth,b.username AS bUser,b.salSum AS bSalSum

FROM (

SELECT month,username,SUM(salary) AS salSum

FROM t_salary_detail

GROUP BY username,month ) a

INNER JOIN (

SELECT month,username,SUM(salary) AS salSum

FROM t_salary_detail

GROUP BY username,month ) b

ON a.username = b.username

WHERE b.month <= a.month ) t

GROUP BY aUser,aMonth;

+------+--+

| _c0  |

+------+--+

| 33   |

| 43   |

| 59   |

| 30   |

| 45   |

| 62   |

+------+--+

【Hadoop离线基础总结】Hive级联求和的更多相关文章

【Hadoop离线基础总结】Hive调优手段
Hive调优手段最常用的调优手段 Fetch抓取 MapJoin 分区裁剪列裁剪控制map个数以及reduce个数 JVM重用数据压缩 Fetch的抓取出现原因 Hive中对某些情况的查询不 ...
【Hadoop离线基础总结】流量日志分析网站整体架构模块开发
目录数据仓库设计维度建模概述维度建模的三种模式本项目中数据仓库的设计 ETL开发创建ODS层数据表导入ODS层数据生成ODS层明细宽表统计分析开发流量分析受访分析访客visit分 ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...
【Hadoop离线基础总结】Hue的简单介绍和安装部署
目录 Hue的简单介绍概述核心功能安装部署下载Hue的压缩包并上传到linux解压编译安装启动启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...
【Hadoop离线基础总结】impala简单介绍及安装部署
目录 impala的简单介绍概述优点缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...
【Hadoop离线基础总结】Sqoop常用命令及参数
目录常用命令常用公用参数公用参数:数据库连接公用参数:import 公用参数:export 公用参数:hive 常用命令&参数从关系表导入--import 导出到关系表--expor ...
Hadoop(分布式系统基础架构)---Hive与HBase区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用. Hive是什么? Apache Hive是 ...
【Hadoop离线基础总结】Hue与Hive集成
目录 1.更改hue的配置hue.ini 2.启动hive的metastore以及hiveserver2服务 3.启动hue进程,查看Hive是否与Hue集成成功 1.更改hue的配置hue.ini ...
【Hadoop离线基础总结】Hive的基本操作
Hive的基本操作创建数据库与创建数据库表创建数据库的相关操作创建数据库:CREATE TABLE IF NOT EXISTS myhive hive创建表成功后的存放位置由hive-site. ...

随机推荐

A. Number Theory Problem
题目大意:计算小于2^n,且满足2^k-1并且是7的倍数的个数思路:优先打表,数据不大,1e5,然后求个前n项和 #include<bits/stdc++.h> using namesp ...
JavaScript基础1225
JavaScript函数 1.函数是由事件驱动的或者当它被调用时执行的可重复使用的代码块. tip:JavaScript对大小写敏感.关键词function必须是小写,并且必须以与函数名称相同的大小写 ...
vue2.x学习笔记（八）
接着前面的内容:https://www.cnblogs.com/yanggb/p/12577433.html. 列表渲染 vue提供了一个[v-for]指令用于列表渲染(循环). 用[v-for]指令 ...
Linux 常用到的命令
1.按照文件所有属用户和名字查询 find -user mpsp -name \*.bin 2.根据string 字符串查找内容 more +/string test.txt 3.查找文件尾部后20 ...
Service Mesh 介绍
传统单体应用的局限性说明传统单体应用代码体量庞大繁杂,不利于理解,也不利于团队合作开发,更不利于频繁更新和部署,增加服务宕机的风险. 耦合性高,功能代码块之前很容易造成强依赖,只要其中任何一个代码逻 ...
元素均匀排列自动换行&二维数组前端遍历
1.元素均匀排列并自动换行 display:flex; flex-wrap:wrap; 2.getFiled();取一行,取多行的话用getFiled(‘id’,true); 3.二维数组前端遍历: ...
前端JS—显示赋值（一）
一:js代码必须位于<script>js代码</script> 把js代码放到<body>元素的地步,可以改善显示速度二:js显示数据使用 window.ale ...
（四）PL/SQL运算符
运算符是一个符号,告诉编译器执行特定的数学或逻辑操作. PL/SQL语言有丰富的内置运算符,运算符提供的以下几种类型: 1.算术运算符 2.关系运算符 3.比较运算符 4.逻辑运算符 5.字符串运算符 ...
【JAVA基础】07 面向对象2
1. 代码块的概述和分类面试的时候会问,开发不用或者很少用代码块概述在Java中,使用 {} 括起来的代码被称为代码块. 代码块分类根据其位置和声明的不同,可以分为局部代码块,构造代码块,静态 ...
Vue Cli 3 报错：router is not defined
报错内容: 报错原因: 代码全部放在了路由配置的main.js文件里,router没有定义,使用的时候报undefined 解决方法: 把router.beforeEach放在main.js里面

【Hadoop离线基础总结】Hive级联求和

Hive级联求和

【Hadoop离线基础总结】Hive级联求和的更多相关文章

随机推荐

热门专题