Hive——join的使用

Hive——join的使用

hive中常用的join有：inner join、left join 、right join 、full join、left semi join、cross join、mulitiple

在hive中建立两张表，用于测试：

hive> select * from rdb_a;

OK

1       lucy

2       jack

3       tony

hive> select * from rdb_b;

OK

1       12

2       22

4       32

一、基本join使用

1、内关联（[inner] join）：只返回关联上的结果

select a.id,a.name,b.age from rdb_a a inner join rdb_b b on a.id=b.id;

Total MapReduce CPU Time Spent: 2 seconds 560 msec

OK

1       lucy    12

2       jack    22

Time taken: 47.419 seconds, Fetched: 2 row(s)

2、左关联（left [outer] join）：以左表为主

select a.id,a.name,b.age from rdb_a a left join rdb_b b on a.id=b.id;

Total MapReduce CPU Time Spent: 1 seconds 240 msec

OK

1       lucy    12

2       jack    22

3       tony    NULL

Time taken: 33.42 seconds, Fetched: 3 row(s)

3、右关联（right [outer] join）：以右表为主

select a.id,a.name,b.age from rdb_a a right join rdb_b b on a.id=b.id;

Total MapReduce CPU Time Spent: 2 seconds 130 msec

OK

1       lucy    12

2       jack    22

NULL    NULL    32

Time taken: 32.7 seconds, Fetched: 3 row(s)

4、全关联（full [outer] join）：以两个表的记录为基准，返回两个表的记录去重之和，关联不上的字段为NULL。

select a.id,a.name,b.age from rdb_a a full join rdb_b b on a.id=b.id;

Total MapReduce CPU Time Spent: 5 seconds 540 msec

OK

1       lucy    12

2       jack    22

3       tony    NULL

NULL    NULL    32

Time taken: 42.938 seconds, Fetched: 4 row(s)

5、left semi join：以LEFT SEMI JOIN关键字前面的表为主表，返回主表的KEY也在副表中的记录。

select a.id,a.name from rdb_a a left semi join rdb_b b on a.id=b.id;

Total MapReduce CPU Time Spent: 3 seconds 300 msec

OK

1       lucy

2       jack

Time taken: 31.105 seconds, Fetched: 2 row(s)

其实就相当于：select a.id,a.name from rdb_a a where a.id in(select b.id from  rdb_b b );

6、笛卡尔积关联（cross join）：返回两个表的笛卡尔积结果，不需要指定关联键

select a.id,a.name,b.age from rdb_a a cross join rdb_b b;

Total MapReduce CPU Time Spent: 1 seconds 260 msec

OK

1       lucy    12

1       lucy    22

1       lucy    32

2       jack    12

2       jack    22

2       jack    32

3       tony    12

3       tony    22

3       tony    32

Time taken: 24.727 seconds, Fetched: 9 row(s)

二、Common Join与Map Join

利用hive进行join连接操作，相较于MR有两种执行方案，一种为common join，另一种为map join ，map join是相对于common join的一种优化，省去shullfe和reduce的过程，大大的降低的作业运行的时间。

Common Join（也称之为shufflejoiin/reducejoin）

过程：

1>首先会启动一个Task，Mapper会去读表HDFS上两张X/Y表中的数据
2>Mapper处理过数据再经过shuffle处理
3>最后由reduce输出join结果

缺点 :
1>存在shuffle过程，效率低
2>每张表都要去磁盘读取，磁盘IO大

Map Join

过程：

1>mapjoin首先会通过本地MapReduce Task将要join的小表转成Hash Table Files，然后加载到分布式缓存中
2>Mapperh会去缓存中读取小表数据来和Big Table数据进行join
3>Map直接给出结果

优点：没有shuffle/Reduce过程，效率提高

缺点：由于小表都加载到内存当中，读内存的要求提高了

hive中专门有个参数来设置是否自动将commmon join 转化为map join：hive.auto.convert.join。

当hive.auto.convert.join=true hive会为我们自动转换。

Hive——join的使用的更多相关文章

Hive JOIN使用详解
转自http://shiyanjun.cn/archives/588.html Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL.有了Hive,如果使用过SQL语言,并且不理解 ...
Hive Join
最近被朋友问到有关于Hive Join的问题,保守回答过后,来补充补充知识: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 一.Hi ...
Hive JOIN的基本操作及内部实现
1.HIVE基本操作: [一起学Hive]之十一-Hive中Join的类型和用法注:HIve不支持非等值连接: 什么是等值连接: //Oracle SQL 不等值连接 //通过不等值连接查找7788 ...
Hive Join优化
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化: 1. 只支持等值连接 2. 底层会将写的HQL语句转换为MapRed ...
hive join 优化
common join : 即reducer join,瓶颈在shuffle阶段,会产生较大的网络io: map join:即把小表放前面,扫描后放入每个节点的内存,在map阶段进行匹配: 开启map ...
hive: join 遇到问题
在表连接时遇到一个问题: insert overwrite table BF_EVT_CRD_CRT_TRAD2 select BF_EVT_CRD_CRT_TRAD.*, jjkdjk.CUST_N ...
转载:几种 hive join 类型简介
作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论 ...
hive join的三种优化方式
原网址:https://blog.csdn.net/liyaohhh/article/details/50697519 hive在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接, 例如在进行 ...
hive join 优化 --小表join大表
1.小.大表 join 在小表和大表进行join时,将小表放在前边,效率会高.hive会将小表进行缓存. 2.mapjoin 使用mapjoin将小表放入内存,在map端和大表逐一匹配.从而省去red ...

随机推荐

JVM集合之开篇点题
大家在平时的开发过程中是否遇到过StackOverflowError.OutOfMemoryError等类似的内存溢出错误呢?大家又是怎么解决这个问题的?再来,大家在面试过程中有没有被面试官提问过jv ...
五、部署LNMP环境（linux + nginx + mysql + php）
装包(nginx.数据库.php.php调用)---------起服务-----权限装包: yum -y install gcc openssl-devel pcre-devel zlib-de ...
【NX二次开发】Block UI 曲线收集器
属性说明属性类型描述常规 BlockID String 控件ID Enable Logical 是否可操作 Group ...
UF_LAYOUT 布局相关
Open C uc6460uc6462uc6463uc6464 根据视图名称旋转视图,在布局中替换视图uc6466uc6467uc6468uc6469uc6470uc6471uc6472uc6473
Mybatis数据连接池的配置---增删改查（以及遇见的问题）
1.首先创建项目和各个文件,如图所示: 2.配置相关数据库连接在jdbc.properties中加入 1 db.driver=com.mysql.jdbc.Driver 2 db.url=jdbc: ...
Golang编写Windows动态链接库(DLL)及C调用范例
一.准备. 1.GoLang在1.10版本之后开始支持编译windows动态链接库,可以打开命令行工具使用go version 查看自己的go版本. 2.你的电脑上需要gcc,如果没有的话[点击这里] ...
《面试补习》- Java集合知识梳理
一.ArrayList ArrayList 底层数据结构为动态数组 ,所以我们可以将之称为数组队列. ArrayList 的依赖关系: public class ArrayList<E> ...
解决List遍历删除元素提示ConcurrentModificationException
JDK1.8提供新的API ===> removeIf public static void main(String[] args) { List<String> list = ...
由ASP.NET Core WebApi添加Swagger报错引发的探究
缘起在使用ASP.NET Core进行WebApi项目开发的时候,相信很多人都会使用Swagger作为接口文档呈现工具.相信大家也用过或者了解过Swagger,这里咱们就不过多的介绍了.本篇文章记录 ...
2012年第三届蓝桥杯C/C++程序设计本科B组省赛取球博弈
2012年第三届蓝桥杯C/C++程序设计本科B组省赛取球博弈题目描述 **取球博弈今盒子里有n个小球,A.B两人轮流从盒中取球,每个人都可以看到另一个人取了多少个,也可以看到盒中还剩下多少个,并 ...

Hive——join的使用

Hive——join的使用的更多相关文章

随机推荐

热门专题