hive: join 遇到问题

在表连接时遇到一个问题：

insert overwrite table BF_EVT_CRD_CRT_TRAD2

select BF_EVT_CRD_CRT_TRAD.*, jjkdjk.CUST_NO,BF_AGT_CRD_CRT.OUT_CRD_INSTN_CD

from BF_AGT_CRD_CRT join jjkdjk on (BF_AGT_CRD_CRT.CUST_NO=jjkdjk.pcust_no) join BF_EVT_CRD_CRT_TRAD on (BF_EVT_CRD_CRT_TRAD.CRD_NO= BF_AGT_CRD_CRT.CRD_NO);

　　该语句中如果大表有30亿行记录，而小表只有100行记录，而且那么大表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中遇有内存不够而报错。

考虑map join 的原理：

MAPJION会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map是进行了join操作，省去了reduce运行的效率也会高很多

解决思路：

BF_AGT_CRD_CRT　　count(*)　　4031974
jjkdjk　　count(*)　　3912676

BF_EVT_CRD_CRT_TRAD　　count(*)　　251512826
采用hint方式启动数据驱动，如：

select f.a,f.b from A t join B f  on ( f.a=t.a and f.ftime=20110802)

改为

select /*+ mapjoin(A)*/ f.a,f.b from A t join B f  on ( f.a=t.a and f.ftime=20110802)

insert overwrite table BF_EVT_CRD_CRT_TRAD2

 select /*+ mapjoin(BF_AGT_CRD_CRT)*/BF_EVT_CRD_CRT_TRAD.*, jjkdjk.CUST_NO,BF_AGT_CRD_CRT.OUT_CRD_INSTN_CD

 from   BF_AGT_CRD_CRT join jjkdjk on (BF_AGT_CRD_CRT.CUST_NO=jjkdjk.pcust_no) join BF_EVT_CRD_CRT_TRAD on (BF_EVT_CRD_CRT_TRAD.CRD_NO= BF_AGT_CRD_CRT.CRD_NO);

但还是报错。

Total MapReduce jobs = 4

2014-10-22 05:45:06     Starting to launch local task to process map join; maximum memory = 1065484288

2014-10-22 05:45:42     Processing rows:        200000  Hashtable size: 199999      Memory usage:   82761296        percentage:     0.078

2014-10-22 05:45:45     Processing rows:        300000  Hashtable size: 299999      Memory usage:   114515648       percentage:     0.107

2014-10-22 05:45:47     Processing rows:        400000  Hashtable size: 399999      Memory usage:   148324312       percentage:     0.139

.......

2014-10-22 05:46:37     Processing rows:        2400000 Hashtable size: 2399999     Memory usage:   851355056       percentage:     0.799

2014-10-22 05:46:46     Processing rows:        2500000 Hashtable size: 2499999     Memory usage:   888876848       percentage:     0.834

2014-10-22 05:46:47     Processing rows:        2600000 Hashtable size: 2599999     Memory usage:   934695048       percentage:     0.877

2014-10-22 05:46:48     Processing rows:        2700000 Hashtable size: 2699999     Memory usage:   973416544       percentage:     0.914

Execution failed with exit status: 3

Obtaining error information

Task failed!

Task ID:

  Stage-12

Logs:

/tmp/root/hive.log

FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

分析原因是：

任务自动把join装换mapjoin时内存溢出，解决法子：关闭自动装换，11前的版本默认值为false，后面的为true;

所以hive默认配置参数为set hive.auto.convert.join = true;

首先把小的表加入内存，hive自动根据sql，选择使用common join或者map join，导致只针对小表来确定mapreduce个数和运行空间，而大表根本就处理不了。

而hive.mapjoin.smalltable.filesize 默认值是25mb

set mapreduce.map.memory.mb=2049;

set mapreduce.reduce.memory.mb=20495;

set hive.auto.convert.join=false;

insert overwrite table BF_EVT_CRD_CRT_TRAD2

select BF_EVT_CRD_CRT_TRAD.*, jjkdjk.CUST_NO,BF_AGT_CRD_CRT.OUT_CRD_INSTN_CD

from   BF_AGT_CRD_CRT join jjkdjk on (BF_AGT_CRD_CRT.CUST_NO=jjkdjk.pcust_no) join BF_EVT_CRD_CRT_TRAD on (BF_EVT_CRD_CRT_TRAD.CRD_NO= BF_AGT_CRD_CRT.CRD_NO);

hive: join 遇到问题的更多相关文章

Hive JOIN使用详解
转自http://shiyanjun.cn/archives/588.html Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL.有了Hive,如果使用过SQL语言,并且不理解 ...
Hive Join
最近被朋友问到有关于Hive Join的问题,保守回答过后,来补充补充知识: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 一.Hi ...
Hive JOIN的基本操作及内部实现
1.HIVE基本操作: [一起学Hive]之十一-Hive中Join的类型和用法注:HIve不支持非等值连接: 什么是等值连接: //Oracle SQL 不等值连接 //通过不等值连接查找7788 ...
Hive Join优化
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化: 1. 只支持等值连接 2. 底层会将写的HQL语句转换为MapRed ...
Hive——join的使用
Hive--join的使用 hive中常用的join有:inner join.left join .right join .full join.left semi join.cross join.mu ...
hive join 优化
common join : 即reducer join,瓶颈在shuffle阶段,会产生较大的网络io: map join:即把小表放前面,扫描后放入每个节点的内存,在map阶段进行匹配: 开启map ...
转载:几种 hive join 类型简介
作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论 ...
hive join的三种优化方式
原网址:https://blog.csdn.net/liyaohhh/article/details/50697519 hive在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接, 例如在进行 ...
hive join 优化 --小表join大表
1.小.大表 join 在小表和大表进行join时,将小表放在前边,效率会高.hive会将小表进行缓存. 2.mapjoin 使用mapjoin将小表放入内存,在map端和大表逐一匹配.从而省去red ...

随机推荐

java ecplise配置
运行java项目首先配置java运行时环境:Window->Preferences->Java->Installed JREs 修改为jdk:C:\Program Files\Jav ...
【转】GPS网平差
进行GPS网平差的目的主要有三个: (1)消除由观测量和已知条件中存在的误差所引起的GPS网在几何上的不一致.包括闭合环闭合差不为0:复测基线较差不为0:通过由基线向量所形成的导线,将坐标由一个已知点 ...
【视频编解码·学习笔记】5. NAL Unit 结构分析
在上篇笔记中通过一个小程序,可以提取NAL Unit所包含的的字节数据.H.264码流中的每一个NAL Unit的作用并不是相同的,而是根据不同的类型起不同的作用.下面将对NAL Unit中的数据进行 ...
Jmeter之http性能测试实战 NON-GUI模式进行分布式压力测试——干货（十二）
Apache JMeter Distributed Testing Step-by-step This short tutorial explains how to use multiple syst ...
Spring学习之二
1.初始化和销毁Bean 当实例化一个Bean时,可能需要执行一些初始化操作来确保该Bean处于可用状态.同样地,当不需要Bean时,将其从容器中移除时,我们可能还需要按顺序的执行一些清除工作. 为定 ...
javase学习小结二
三角函数方法 Math.sin(radians):Math.sin(Math.PI/6)=0.5 Math.cos(radians):Math.cos(Math.PI/3)=0.5 Math.tan( ...
洛谷 [P3033] 牛的障碍
利用二分图匹配求最大独立集本题的边一定平行于坐标轴,且同向的线段一定不重合,这是经典的二分图建图方法,本题要求的是最大不重合的线段数,那就是求二分图的最大独立集,最大独立集=总点数-最大匹配数. 本 ...
洛谷 [P1963] [NOI2009] 变换序列
这是一道二分图匹配的题先%dalao博客建图并没有什么难的,但是关键在于如何使字典序最小. 一个很显然的想法是先求出一个完美匹配,然后从x集合的第一个元素开始,如果该元素匹配的较小的一个,那么继续 ...
如何在方法上贴上attribute(特性)捕捉方法的异常，来实现我们的需求
在方法上贴上attribute(特性)捕捉方法的异常,其实这么做也是为了在项目中不会大量使用try-cacth这样的语句,同时使我们的代码看起来更简洁,更直观,将逻辑业务分离使得后期维护方便.这里我们 ...
使用Spring Boot搭建应用开发框架(一) —— 基础架构
Spring的简史第一阶段:XML配置,在Spring1.x时代,使用Spring开发满眼都是xml配置的Bean,随着项目的扩大,我们需要把xml配置文件分放到不同的配置文件里,那时候需要频繁的在 ...

hive: join 遇到问题

hive: join 遇到问题的更多相关文章

随机推荐

热门专题