演讲：对 2000 多亿条数据做一次 group by 需要多久？

http://2017.qconbeijing.com/presentation/646?utm_source=weibo&utm_medium=infoq&utm_campaign=yj

专题演讲嘉宾 :易杰

腾讯社交与效果广告部检索系统组主管

    在腾讯工作 10 年，一直从事效果广告的研发工作，对互联网广告及精准推广有较深理解，具备优秀的互联网海量运营经验。

    现负责腾讯社交广告平台百亿级广告引擎系统，OLAP 系统 PivotEngine 等。

SPA 自研 PivotEngine 可以在 2 秒内完成。

数据是很多业务的核心驱动力之一。对于“SPA”这样的广告业务，更是如此。几十亿用户，每天几百亿次曝光，都产生大量的数据。对这些数据进行透视分析，发现其中蕴含的一些高层宏观信息，对于广告主以及我们自己的产品、运营、策略开发等人员的决策都能提供指导和帮助。

比如广告主投放一条广告，他想了解浏览了其广告的这批用户的年龄是个什么样的分布，更进一步地，其想对比一下曝光用户和有点击行为的用户，比如曝光中 25 岁的用户占比是 10%，但是点击中 25 岁的用户占比却高达 15%。

对于运营来说，他们可能想了解一段时间整个系统中获得不同曝光次数的用户的占比、点击率、产生的收入等。比如最近 10 天内产生 1 次曝光的用户的数量、平均点击率、收入，2 次曝光用户的数量、平均点击率、收入等。

对于广告主的这种简单需求，通过 SQL 可以这样得到结果：

select age, count(*) from log where advertiser_id=xxx group by age

对于后面那种按曝光量聚合统计的需求来说，假设每条曝光日志作为一条基本的数据，那么 sql 大概是如下这种形式的两层 GROUP BY 嵌套查询：

SELECT

    exposure_num,

    COUNT(*) as user_num,

    SUM(sum_click) / SUM(exposure_num) as click_rate,

    SUM(sum_cost) AS total_cost

FROM

    (SELECT

         qq,

         COUNT(*) AS exposure_num,

         SUM(click_count) AS sum_click,

         SUM(cost) AS sum_cost

     FROM

         log_table

     GROUP BY qq) temp_table

GROUP BY exposure_num;

如果只有几十万或几百万条数据，也许 mysql 就可以很好的解决这个问题。但是当数据规模达到几十亿、几百亿甚至上千亿时，mysql 就无法处理了。此外 mysql 一行数据在一列上只能取一个值，但是对于一个用户来说，其某个属性可能是多值，比如用户的商业兴趣，会有多个值。这时按照“商业兴趣”这一列进行 group by，mysql 也无法或者不方便处理。

为了高效低成本地支持这种简单的“过滤-聚合”模式，也即“where-group by-(count|sum|avg) ”这种模式的查询分析请求，当然易用也是非常重要的，我们自研了一套在线查询分析引擎“PivotEngine”。

演讲：对 2000 多亿条数据做一次 group by 需要多久？的更多相关文章

net.sz.framework 框架 ORM 消消乐超过亿条数据排行榜分析天王盖地虎
序言天王盖地虎, 老婆马上生孩子了,在家待产,老婆喜欢玩消消乐类似的休闲游戏,闲置状态,无聊的分析一下消消乐游戏的一些技术问题: 由于我主要是服务器研发,客户端属于半吊子,所以就分析一下消消乐排行榜 ...
亿条数据在PHP中实现Mysql数据库分表100张
当数据量猛增的时候,大家都会选择库表散列等等方式去优化数据读写速度.笔者做了一个简单的尝试,1亿条数据,分100张表.具体实现过程如下: 首先创建100张表: $i=0; while($i<=9 ...
1亿条数据在PHP中实现Mysql数据库分表100张
当数据量猛增的时候,大家都会选择库表散列等等方式去优化数据读写速度.笔者做了一个简单的尝试,1亿条数据,分100张表.具体实现过程如下: 首先创建100张表: $i=0; while($i<=9 ...
PostgreSQL中COUNT的各条件下（1亿条数据）例子
test=# insert into tbl_time1 select generate_series(1,100000000),clock_timestamp(),now(); INSERT 0 1 ...
Java备份约9亿条数据
需求:有一张表9亿多条数据,数据加索引总数据量61GB.考虑到这张表的大部分数据都不会再被使用并且大数据量可能影响整库的性能,所以决定将表里某一个时刻之前的数据备份到一张新表中,待备份完成后将旧表中已 ...
oralce 超过1亿条数据的数据库表清理实践
2018-08-18 16:58 无腿鸟阅读(331) 评论(0) 编辑收藏问题:当一个表的数据量超过一亿条,要删除其中的5000w条,如何处理. 如果直接使用delete语句,会涉及到到大量的 ...
过千万、亿条数据的mysql表更新 mysql 线程状态
分段更新 UPDATE question SET `status`=1 WHERE status!=1 LIMIT 3000;UPDATE answer SET `status`=1 WHERE st ...
超过70亿条数据的mysql 去重
1.数据库层面: 2.业务层面:接口去重.浏览器显示端去重:
mysql 造1亿条记录的单表--大数据表
读写文件背景及木:现有数据1000w单表,为压力测试准备1亿条数据. 步骤: 1.将1000w条记录,除id外都导入到多个文件中: //DELIMITER DROP PROCEDURE if EXI ...

随机推荐

MySQL5.7.18 备份、Mysqldump，mysqlpump，xtrabackup，innobackupex 全量，增量备份，数据导入导出
粗略介绍冷备,热备,温暖,及Mysqldump,mysqlpump,xtrabackup,innobackupex 全量,增量备份 --备份的目的灾难恢复:意外情况下(如服务器宕机.磁盘损坏等)对损 ...
JavaScript中setInterval用法
setInterval动作的作用是在播放动画的时,每隔一定时间就调用函数,方法或对象.可以使用本动作更新来自数据库的变量或更新时间显示. setInterval动作的语法格式如下:setInterva ...
多媒体开发之---live555 分析客户端
live555的客服端流程:建立任务计划对象--建立环境对象--处理用户输入的参数(RTSP地址)--创建RTSPClient实例--发出DESCRIBE--发出SETUP--发出PLAY--进入Lo ...
错误Log日志的收集
1.在Application里面初始化 AppCrashHandler.getInstance(this); 2.创建一个类 package com.lvshandian.partylive.util ...
搭建sftp服务+nginx代理
在公司,经常会用到sftp服务,比如两个公司对接生产项目,其中一方,要在sftp上上传pdf文件,另一方公司要在sftp服务器上用nginx代理直接下载pdf文件.下面就说说我在实际中应用到的sftp ...
delphi视频聊天
用Delphi开发视频聊天软件一.引言我们知道视频聊天软件的关键技术在于采集视频,并实时传输给聊天软件在线的人.对于视频的采集,这里采用微软公司的关于数字视频的一个软件包VFW(Video for ...
【分享】自己写的一个可空的DateTimePicker控件-附源码
最近这段时间在重构以前的一个项目,其中有一项就是要把DateTimePicker控件值可空.大家都知道的DateTimePicker值为DateTime类型,DateTime类型值不能等于Null.但 ...
Eclipse + JDK + tomcat开发环境配置
第一步:下载jdk和tomcat:JDK下载 Tomcat下载最新的jdk为1.6.10,tomcat为6.0,建议jdk1.4以上,tomcat4.0以上第二步:安装和配置 ...
我的Android进阶之旅------>真正在公司看几天代码的感触
仅以此文来回顾这一周我的工作情况,以及由此而触发的感想. ============================================================= 来到新公司5天了, ...
SAP-财务会计
[转自 http://blog.itpub.net/195776/viewspace-1023913/] 一.FI组织架构1主数据1．1总帐科目1．2帐户组.1．3统驭科目1．4 总帐未清项管理2 凭 ...

演讲：对 2000 多亿条数据做一次 group by 需要多久？

演讲：对 2000 多亿条数据做一次 group by 需要多久？的更多相关文章

随机推荐

热门专题