Hive group by实现-就是word 统计

准备数据

SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;

hive> SELECT * FROM logs;

a	苹果	5

a	橙子	3

a      苹果   2

b	烧鸡	1

hive> SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;

a	10

b	1

计算过程

默认设置了hive.map.aggr=true，所以会在mapper端先group by一次，最后再把结果merge起来，为了减少reducer处理的数据量。注意看explain的mode是不一样的。mapper是hash，reducer是mergepartial。如果把hive.map.aggr=false，那将groupby放到reducer才做，他的mode是complete.

Operator

Explain

hive> explain SELECT uid, sum(count) FROM logs group by uid;

OK

ABSTRACT SYNTAX TREE:

  (TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME logs))) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SELECT (TOK_SELEXPR (TOK_TABLE_OR_COL uid)) (TOK_SELEXPR (TOK_FUNCTION sum (TOK_TABLE_OR_COL count)))) (TOK_GROUPBY (TOK_TABLE_OR_COL uid))))

STAGE DEPENDENCIES:

  Stage-1 is a root stage

  Stage-0 is a root stage

STAGE PLANS:

  Stage: Stage-1

    Map Reduce

      Alias -> Map Operator Tree:

        logs

          TableScan // 扫描表

            alias: logs

            Select Operator //选择字段

              expressions:

                    expr: uid

                    type: string

                    expr: count

                    type: int

              outputColumnNames: uid, count

              Group By Operator //这里是因为默认设置了hive.map.aggr=true，会在mapper先做一次聚合，减少reduce需要处理的数据

                aggregations:

                      expr: sum(count) //聚集函数

                bucketGroup: false

                keys: //键

                      expr: uid

                      type: string

                mode: hash //hash方式，processHashAggr()

                outputColumnNames: _col0, _col1

                Reduce Output Operator //输出key，value给reducer

                  key expressions:

                        expr: _col0

                        type: string

                  sort order: +

                  Map-reduce partition columns:

                        expr: _col0

                        type: string

                  tag: -1

                  value expressions:

                        expr: _col1

                        type: bigint

      Reduce Operator Tree:

        Group By Operator

          aggregations:

                expr: sum(VALUE._col0)

//聚合

          bucketGroup: false

          keys:

                expr: KEY._col0

                type: string

          mode: mergepartial //合并值

          outputColumnNames: _col0, _col1

          Select Operator //选择字段

            expressions:

                  expr: _col0

                  type: string

                  expr: _col1

                  type: bigint

            outputColumnNames: _col0, _col1

            File Output Operator //输出到文件

              compressed: false

              GlobalTableId: 0

              table:

                  input format: org.apache.hadoop.mapred.TextInputFormat

                  output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

  Stage: Stage-0

    Fetch Operator

      limit: -1

Hive group by实现-就是word 统计的更多相关文章

hive group by distinct区别以及性能比较
Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧,但是好像平时很少关注这个去重的性能问题,但是当一个表的数据量非常大的时候,会发现一个简单的count(distinct order ...
word统计章节字数
只有我这么无聊了..写论文的时候发现每次想看这个章节的字数统计时,还需要全选然后再看字数统计,太麻烦了.所以想着用宏写个能直接查看选定章节的字数统计. 具体方法如下: 建立宏:视图--宏--录制宏-- ...
[MySQL]group by 与 if 的统计技巧
group by查询旨在把某字段中相同的记录合并成一列,查询结果可受count(),sum()等统计函数影响如下表 id totalclick validclick 1 3 1 2 3 1 3 5 ...
pig:group by之后的其它统计方法一
--测试Top N后的其它统计 A = LOAD '/TraceParser/blackcore/' USING PigStorage() as (lk_id:chararray,host:chara ...
Hive Group By 常见错误
Expression not in GROUP BY key ‘ xxx’ 遇到这么一个需求,输入数据为一个ID对应多个name,要求输出数据为ID是唯一的,name随便取一个就可以. 执行以下hiv ...
MySQL数据库Group by分组之后再统计数目Count(*)与不分组直接统计数目的区别
简述问题“统计最新时刻处于某一状态的设备的数量” 1. 首先子查询结果,可以看到每个设备最新的状态信息 2.1 在子查询的基础上,对设备状态进行分组,进行统计每个状态的设备数量 2.1.1 可以看到处 ...
hive group by聚合函数增强
1.grouping sets grouping sets子句都可以根据UNION连接的多个GROUP BY查询进行逻辑表示 SELECT a,b,SUM(c)FROM tab1 GROUP BY a ...
使用 GROUP BY WITH ROLLUP 改善统计性能
使用 GROUP BY 的 WITH ROLLUP 字句可以检索出更多的分组聚合信息,它不仅仅能像一般的 GROUP BY 语句那样检索出各组的聚合信息,还能检索出本组类的整体聚合信息. 下面我们的例 ...
819. Most Common Word 统计高频词（暂未被禁止）
［抄题］: Given a paragraph and a list of banned words, return the most frequent word that is not in the ...

随机推荐

Android测试读写sd卡文件与写sd卡文件耗时
测试从sd卡读1k大小的文件,再写1k大小的文件,由于处理耗时很短,所以循环500次,查看耗时:测试写1k大小的文件,直接在内存构造一个1k的buffer,将这个buffer直接写到文件,同样循环50 ...
AFNetworking 和 ASIHTTPRequest
在开发iOS应用过程中,如何高效的与服务端API进行数据交换,是一个常见问题.一般开发者都会选择一个第三方的网络组件作为服务,以提高开发效率和稳定性.这些组件把复杂的网络底层操作封装成友好的类和方法, ...
Meta 数据中文显示
class Meta:verbose_name='待办事项'verbose_name_plural = verbose_name这是什么意思? verbose_name指定在admin管理界面中显 ...
Django_随机验证码
随机验证码 Python生成随机验证码,需要使用PIL模块. 安装: pip3 install pillow 基本使用 1. 创建图片 from PIL import Image img = Imag ...
windows安装mysql教程2017最新
1.首先在mysql官网下载最新版mysql, 附上链接点击打开链接,根据你的系统型号选择对应的包下载,大约300多兆,版本号为5.7.19 下载完之后,解压缩,是一个标准的mysql文件 2.第二步 ...
jQuery开发入门
jQuery是JavaScript库中的优秀一员. 下载完jQuery框架文件jquery-1.9.0.js 后,不需要任何安装,仅需使用<script>文件导入标记,将该框架文件导入页面 ...
学会Retrofit+OkHttp+RxAndroid三剑客的使用，让自己紧跟Android潮流的步伐
http://blog.csdn.net/iamzgx/article/details/51607387 概括在上一篇博客android网络框架OkHttp之get请求(源码初识) 讲解了OkHtt ...
【转载】格式化存储装置成为 Ext2/Ext3/Ext4 档案系统
格式化用系统管理员帐户 (即 root) 身份打「mkfs -t ext2|ext3|ext4 储存装置」: mkfs -t ext3 /dev/sdb5 要格式化档案系统为 Ext2,亦可以直接使 ...
一个由自增运算符以及C语法顺序细节引起的bug
一.问题描述在编写modbus代码时发生一件由语法细节引起的bug,起因是自增运算符以及C语法顺序. 输入的数据是2233=0X08B9,高低字节顺序是0x08 0xB9, 使用modbus po ...
20145240 《Java程序设计》第二次实验报告
20145240 <Java程序设计>第二次实验报告北京电子科技学院(BESTI)实验报告课程:Java程序设计班级:1452 指导教师:娄嘉鹏实验日期:2016.04.12 实验 ...

Hive group by实现-就是word 统计

准备数据

计算过程

Operator

Explain

Hive group by实现-就是word 统计的更多相关文章

随机推荐

热门专题