hive两大表关联优化试验

呼叫结果(call_result)与销售历史(sale_history)的join优化：
CALL_RESULT: 32亿条/444G

SALE_HISTORY:17亿条/439G

原逻辑
Map: 3255 Reduce: 950 Cumulative CPU: 238867.84 sec HDFS Read:
587550313339 HDFS Write: 725372805057 SUCCESS
28.1MIN
开启中间结果压缩
set hive.exec.compress.intermediate=true; set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

Map: 3255 Reduce: 950 Cumulative CPU: 268479.06 sec HDFS Read:
587548211067 HDFS Write: 725372805057 SUCCESS
31.6MIN
从结果看cpu的耗时增加，这是压缩解压缩过程的消耗；HDFS读取量略有减少，可能是因为源表是RCFile存储，本身已经压缩导致，因此整体时间上没有明显减少。
开启中间和最终压缩
set hive.exec.compress.intermediate=true; set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec set hive.exec.compress.output=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GZipCodec

Map: 3255 Reduce: 950 Cumulative CPU: 264034.27 sec HDFS Read:
587546058107 HDFS Write: 136021543504 SUCCESS
24.7MIN
从结果看HDFS write明显减少近6倍，整体运行时间有所降低
设置map数量减少一倍
set mapred.max.split.size=512000000
Map: 1684 Reduce: 950 Cumulative CPU: 191656.39 sec HDFS Read:
585689265249 HDFS Write: 725372805057 SUCCESS
22.9MIN
map数减少一倍后，消耗cpu资源减少；整体运行时间略有下降
只开启JVM重用(10)
set mapred.job.reuse.jvm.num.tasks=10;
Map: 3255 Reduce: 950 Cumulative CPU: 259683.41 sec HDFS Read:
587550076795 HDFS Write: 725372805057 SUCCESS
28.9MIN
CPU开销增加，总运行时间没有变化
减少map数并设置JVM重用(10)
Map: 1684 Reduce: 950 Cumulative CPU: 223036.3 sec HDFS Read:
585692215905 HDFS Write: 725372805057 SUCCESS
29.4MIN 效果不大
减少map数并开启压缩
Map: 1684 Reduce: 950 Cumulative CPU: 251331.5 sec HDFS Read:
585697165921 HDFS Write: 136021488023 SUCCESS
26.1MIN
开启中间压缩，对于输入数据量有少许减少，但是cpu开销增大，对于单stage任务总体不理想
减少map数并开启最终压缩
Map: 1687 Reduce: 951 Cumulative CPU: 234941.99 sec HDFS Read:
586512467704 HDFS Write: 136164828062 SUCCESS
24.8MIN
只开启结果压缩，cpu资源消耗较之前有所减少，写入数据量明显降低，性能有提升

总体来看，效果都不明显；hive默认使用reduce side join，当两个表中有一个较小的时候可以考虑map join
，但这两个表都是大表，可以尝试使用bucket map join；基本处理方法是将两个表在join key上做hash
bucket，将较小表（sale_history）的bucket设置为较大表（call_result）的数倍。这样数据就会按照join
key做hash bucket。这样做的话，小表依然会复制到各个节点上，map
join的时候，小表的每一组bucket加载成hashtable，与对应的大表bucket做局部join。
如果两表的join key 都具有唯一性（是主键关联），还可以进一步做sort merge bucket map join
；做法是两表都做bucket的基础上，每个bucket内部还要进行排序，这样做得好处就是在两边的bucket要做局部join的时候，用类似merge
sort算法中的merge操作一样把两个bucket顺序遍历一下即可。
然而以上两种方法经过测试依然没有太好的性能表现；稳定在20min之内已经不错了，又要考虑从源库抽取数据如何保留等问题，最终无法采用，后经过和业务系统沟通，两表每天数据量巨大，业务系统不会更新历史数据，每个表当天的数据是一一对应的，即当天的呼叫和销售历史是对应的，因此将程序优化为当天增量数据关联，数据下降几个数量级，自然不存在性能问题；

所以，优化无止境，不一定非技术手段不可，首先基于业务逻辑做优化，要做到业务与技术相结合。

hive两大表关联优化试验的更多相关文章

Hive中小表与大表关联(join)的性能分析【转】
Hive中小表与大表关联(join)的性能分析 [转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html] 经常看到一些Hive优化的建议中说当 ...
20亿与20亿表关联优化方法(超级大表与超级大表join优化方法)
记得5年前遇到一个SQL.就是一个简单的两表关联.SQL跑了几乎相同一天一夜,这两个表都非常巨大.每一个表都有几十个G.数据量每一个表有20多亿,表的字段也特别多. 相信大家也知道SQL慢在哪里了,单 ...
Oracle两张表关联批量更新其中一张表的数据
Oracle两张表关联批量更新其中一张表的数据方法一(推荐): UPDATE 表2 SET 表2.C = (SELECT B FROM 表1 WHERE 表1.A = 表2.A) WHERE EXI ...
MsSql 游标修改字段两个表关联表向另个表插入记录
-- 方法1:游标-- 声明变量DECLARE @SystemUserId AS UNIQUEIDENTIFIER -- 声明游标DECLARE C_SystemUser CURSOR FAST_FO ...
cmds系统数据库源端大表数据更新优化
cmds系统数据库源端大表数据更新优化以下脚本可以用于将表按照rowid范围分区,获得指定数目的rowid Extent区间(Group sets of rows in the table into ...
Mongoose 两个表关联查询aggregate 以及 Mongoose中获取ObjectId
Mongoose 两个表关联查询aggregate 通常两个表关联查询的时候,是一种一对多的关系,比如订单与订单详情就是一对多的关系,一个订单下面有多个商品数据模拟首先我们先将数据模拟出来,先选择 ...
Oracle SQL性能优化 - 根据大表关联更新小表
需求: 小表数据量20w条左右,大表数据量在4kw条左右,需要根据大表筛选出150w条左右的数据并关联更新小表中5k左右的数据. 性能问题: 对筛选条件中涉及的字段加index后,如下常规的updat ...
两张超级大表join优化
一个简单的两表关联,SQL跑了差不多一天一夜,这两个表都非常巨大,每个表都有几十个G,数据量每个表有20多亿,表的字段也特别多. 相信大家也知道SQL慢在哪里了,单个进程的PGA 是绝对放不下几十个G ...
对现有Hive的大表进行动态分区
分区是在处理大型事实表时常用的方法.分区的好处在于缩小查询扫描范围,从而提高速度.分区分为两种:静态分区static partition和动态分区dynamic partition.静态分区和动态分区 ...

随机推荐

VC++ : VS2008 使用ATL开发COM组件
新建ATL Project,工程名命名为MyAtlCom: 出现工程向导,一路“Next”: Add class,点击添加 ATL Simple Object , 类名CStatistic, 接口I ...
JavaScript网页换肤
使网页背景颜色可选黄/粉 <!doctype html> <html> <head><title>网页换肤</title></head ...
xmapp上搭建dvwa
1. XMapp下载好,安装于C:盘下 2. 根据readme中的揭开,首先执行setup_xmapp. 3. 单击xampp_start, 不报错则继续 4. 在browser中访问localhos ...
M0 M4之UART初始化
新唐的M0/M4 UART都有16级或者64级FIFO,用来缓存UART数据的收/发.例如:如果RX FIFO中断触发级别设为14,UART接收14个字节才会发生RDA(接收数据可得)中断.这样可以降 ...
NUC131的系统管理
系统复位系统复位可以由如下的任何一种中断实现,这些复位中断标志可以通过寄存器RSTSRC读取. 上电复位 nRESET引脚低电平复位 看门狗复位 低压复位 欠压检测器复位 CPU 复位 ...
面试题思考：Servlet 生命周期、工作原理
Servlet 生命周期:Servlet 加载--->实例化--->服务--->销毁. init():在Servlet的生命周期中,仅执行一次init()方法.它是在服务器装入Ser ...
基于Cocos2d-x学习OpenGL ES 2.0系列——初识MVP（3）
在上一篇文章中,我在介绍vertex shader的时候挖了一个坑:CC_MVPMatrix.它其实是一个uniform,每一个Cocos2d-x预定义的shader都包含有这个uniform,但是如 ...
iOS-利用插件实时刷新模拟器(提高效率)
解决办法: 1.需要给Xcode安装一个Alcatraz插件安装完成后:点击window 下面的 package manager 安装我们今天的主角 2. ‘Injection Plugin for ...
Swift-'as?','as'用法
何时使用 'as?'和'as' 让我们来继续为我们假象的UIKit应用写点代码.假设你需要出场(展示)一个新的modal view controller到手机的屏幕上(比如通过使用presentVie ...
《C#高级编程》学习笔记------抗变和协变
1.协变和抗变在.NET 4之前,泛型接口是不变的..NET 4通过协变和抗变为泛型接口和泛型委托添加了一个重要的扩展.协变和抗变指对参数和返回值的类型进行转换.例如,可以给一个需要Shape参数的 ...

hive两大表关联优化试验

hive两大表关联优化试验的更多相关文章

随机推荐

热门专题