Hive中JOIN操作

1. 只支持相等JOIN。

2. 多表连接当使用不同的列进行JOIN时，会产生多个MR作业。

3. 最后的表的数据是从流中读取，而前面的会在内存中缓存，因此最好把最大的表放在最后。

SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)//暗示

4. JOIN在WHERE子句前进行处理。

SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)

　　WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'

SELECT a.val, b.val FROM a LEFT OUTER JOIN b

ON (a.key=b.key AND b.ds='2009-07-07' AND a.ds='2009-07-07')//先过滤

5. JOIN是左结合的：

SELECT a.val1, a.val2, b.val, c.val

FROM a JOIN b ON (a.key = b.key) LEFT OUTER JOIN c ON (a.key = c.key)

---> FROM c LEFT OUTER JOIN a ON (c.key = a.key) LEFT OUTER JOIN b ON (c.key = b.key).

6. 只有一个大表时，可以使用map端连接：

SELECT /*+ MAPJOIN(b) */ a.key, a.value

　　FROM a join b on a.key = b.key

　　1.将小表的数据变成hashtable广播到所有的map端，将大表的数据进行合理的切分

　　2. map阶段用大表的数据一行一行的去探测小表的hashtable

　　hive.auto.convert.join=true：自动判断大表和小表

　　hive.smalltable.filesize=25M：当超过时使用reduce端连接

　　hive.join.emit.interval=1000

　　// hive.mapjoin.size.key=10000

　　hive.mapjoin.cache.numrows=10000

7. BUCKET MAP JOIN：在JOIN列上分桶，桶的数目成倍数关系，设置hive.optimize.bucketmapjoin=true

SELECT /*+ MAPJOIN(b) */ a.key, a.value

　　FROM a join b on a.key = b.key

Bucket Map Join 执行计划分两步，第一步先将小表做map 操作变成hashtable 然后广播到所有大表的map端，大表的map端接受了number_buckets 个小表的hashtable并不需要合成一个大的hashtable,直接可以进行map 操作，map 操作会产生number_buckets 个split，每个split 的标记跟小表的hashtable 标记是一样的, 在执行projection 操作的时候，只需要将小表的一个hashtable 放入内存即可，然后将大表的对应的split 拿出来进行判断，所以其内存限制为小表中最大的那个hashtable 的大小.

8. SORT-MERGE JOIN：在JOIN列上排序并分桶，且有相同的桶数目

set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;

set hive.optimize.bucketmapjoin = true;

set hive.optimize.bucketmapjoin.sortedmerge = true;

9. SKEW JOIN：处理数据倾斜

hive.exec.reducers.bytes.per.reducer：默认处理1G数据

hive.optimize.skewjoin=false

hive.skewjoin.key=100000 ：(处理的总记录数/reduce个数)的2-4倍

内连接：SELECT
sales.*,things.* FROM sales JOIN things ON (sales.id=things.id)

SELECT
sales.*,things.* FROM sales LEFT/RIGHT/FULL OUTER JOIN things ON
(sales.id=things.id)

半连接：
右手边的表只能出现在JOIN条件里，不能出现在SELECT和WHERE里。

SELECT
* FROM things LEFT SEMI JOIN sales ON (sales.id=things.id)

=SELECT
* FROM things WHERE things.id in (SELECT id FROM sales)

Hive中JOIN操作的更多相关文章

Hive中Join的类型和用法
关键字:Hive Join.Hive LEFT|RIGTH|FULL OUTER JOIN.Hive LEFT SEMI JOIN.Hive Cross Join Hive中除了支持和传统数据库中一样 ...
hive：join操作
hive的多表连接,都会转换成多个MR job,每一个MR job在hive中均称为Join阶段.按照join程序最后一个表应该尽量是大表,因为join前一阶段生成的数据会存在于Reducer 的bu ...
Hive中Join的原理和机制
转自:http://lxw1234.com/archives/2015/06/313.htm 笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Joi ...
[Hive_add_5] Hive 的 join 操作
0. 说明在 Hive 中进行 join 操作 1. 操作步骤 1.0 建表在 hiveserver2 服务启动的前提下,在 Beeline客户端中输入以下命令 # 新建顾客表 create ta ...
HIVE中join、semi join、outer join
补充说明 left outer join where is not null与left semi join的联系与区别:两者均可实现exists in操作,不同的是,前者允许右表的字段在select或 ...
谈谈hive中join下on和where
本文为博客园作者所写: 一寸HUI,个人博客地址:https://www.cnblogs.com/zsql/ 很多人如果先接触mysql的执行顺序(from ->on ->join -&g ...
Hive 中Join的专题---Join详解
1.什么是等值连接? 2.hive转换多表join时,如果每个表在join字句中,使用的都是同一个列,该如何处理? 3.LEFT,RIGHT,FULL OUTER连接的作用是什么? 4.LEFT或RI ...
hive中时间操作（二）
转:https://blog.csdn.net/qq646748739/article/details/77997276 --Hive中日期函数总结:--1.时间戳函数--日期转时间戳:从1970-0 ...
hive中时间操作（一）
转:https://blog.csdn.net/u012474716/article/details/78925319/ hive中常用的时间为时间戳和日期格式之间的转换常用的函数为: to_dat ...

随机推荐

南阳oj 求N!的二进制表示最低位的1的位置(从右向左数)。
N! 时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述阶乘(Factorial)是一个很有意思的函数,但是不少人都比较怕它.现在这里有一个问题,给定一个N(0< ...
#ifdef _DEBUG
#ifdef _DEBUG virtual void AssertValid() const; //assert(断言)valid(有效的,正确的) virtual void Dump(CDumpCo ...
linux下如何安装配置redis及主从配置
redis的优点:支持主从备份,操作指令丰富,支持异步的数据持久化将 redis 安装到 /usr/local/webserver/redis 1.下载安装包 wget http://redis.g ...
C#获取当前页面的url
C#获取当前页面的url string a= Request.ApplicationPath; // / string b = Request.CurrentExecutionFilePath; // ...
中国特色社会主义的体制中有这样的现象：地方省政府要坚持党的领导和按照国务院的指示进行安全生产。请编写一个java应用程序描述上述的体制现象。
package a; public interface CentralPartyCommittee { void partyLeader(); } package a; public abstract ...
MySQL(五) —— 子查询
子查询(SubQuery)是指出现在其他SQL语句内的SELECT语句. 如: SELECT * FROM t1 WHERE col1 = (SELECT col2 FROM t2); 其中 SELE ...
移除virbr0
在我们使用虚拟机管理器的图形界面来安装虚拟机的时候,自动创建虚拟网桥和虚拟网卡.另外,我们很少会在一个虚拟机中再安装一个虚拟机,所以,我们可以将宿主机上的网桥删除.方法如下: # virsh net- ...
基于Microchip单片机的触摸感应技术
Microchip提供两种电容式触摸感应解决方案,一种为张驰振荡器方式,即通过检测触摸感应电容充放电的频率变化,来检测是否有键按下,根据单片机集成的硬件资源不同,另一种通过Microchip单片机集成 ...
[SAP ABAP开发技术总结]字符编码与解码、Unicode
声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...
Linux命令工具基础04 磁盘管理
Linux命令工具基础04 磁盘管理日程磁盘管理中,我们最常用的有查看当前磁盘使用情况,查看当前目录所占大小,以及打包压缩与解压缩: 查看磁盘空间查看磁盘空间利用大小 df -h -h: huma ...

Hive中JOIN操作

Hive中JOIN操作的更多相关文章

随机推荐

热门专题