Hive查询Join

Select a.val,b.val From a [Left|Right|Full Outer] Join b On (a.key==b.key);

现有两张表：sales 列出了人名及其所购商品的 ID；things 列出商品的 ID 和名称：

hive> select * from sales;

OK

Joe     2

Hank    4

Ali     0

Eve     3

Hank    2

Time taken: 0.085 seconds, Fetched: 5 row(s)

hive> select * from things;

OK

2       Tie

4       Coat

3       Hat

1       Scarf

Time taken: 0.069 seconds, Fetched: 4 row(s)

1.内连接

Hive只支持等值连接，这意味着在 ON 关键字后的表达式中只能使用等号。具体JAVA-API实现详见：MR案例：内连接

hive> select sales.*,things.*

    > from sales JOIN things ON(sales.id = things.id);

Joe     2       2       Tie

Hank    4       4       Coat

Eve     3       3       Hat

Hank    2       2       Tie

此外还可以在Where子句中指定连接条件。

hive> select sales.*,things.*

    > from sales,things

    > where sales.id = things.id;

OK

Joe     2       2       Tie

Hank    4       4       Coat

Eve     3       3       Hat

Hank    2       2       Tie

单个的连接用一个 MR 作业实现。但是，如果多个连接的连接条件中使用了相同的列，那么平均每个连接可以至少用一个 MR 作业来实现。可以在查询前使用 Explain关键字 来查看 Hive将为某个查询使用多少个 MR 作业：【此部分在以后详述】

hive> explain

    > select sales.*,things.*

    > from sales join things on (sales.id=things.id);

2.外连接

外连接可以让你找到连接表中不能匹配的数据行。前面的内连接，【Ali】那一行没有出现在输出中。因为她所购买商品的ID没有在things表中出现。具体JAVA-API实现详见MR案例：外连接

　　左外连接：就可以显示左边表的所有数据行：T_Name1 LEFT OUTER JOIN T_Name2 ON ()

hive> select sales.*,things.*

    > from sales LEFT OUTER JOIN things ON(sales.id = things.id);

OK

Joe     2       2       Tie

Hank    4       4       Coat

Ali     0       NULL    NULL

Eve     3       3       Hat

Hank    2       2       Tie

Time taken: 13.387 seconds, Fetched: 5 row(s)

　　右外连接：T_Name1 RIGHT OUTER JOIN T_Name2 ON ()

hive> select sales.*,things.*

    > from sales RIGHT OUTER JOIN things ON(sales.id = things.id);

OK

Joe     2       2       Tie

Hank    2       2       Tie

Hank    4       4       Coat

Eve     3       3       Hat

NULL    NULL    1       Scarf

Time taken: 14.54 seconds, Fetched: 5 row(s)

　　全外连接：T_Name1 FULL OUTER JOIN T_Name2 ON ()

hive> select sales.*,things.*

    > from sales FULL OUTER JOIN things ON(sales.id = things.id);

OK

Ali     0       NULL    NULL

NULL    NULL    1       Scarf

Hank    2       2       Tie

Joe     2       2       Tie

Eve     3       3       Hat

Hank    4       4       Coat

Time taken: 44.671 seconds, Fetched: 6 row(s)

　　半连接：T_Name1 LEFT SEMI JOIN T_Name2 ON ()　

hive> select * from things

    > where things.id in

    > (select id from sales);

OK

2       Tie

4       Coat

3       Hat

Time taken: 15.633 seconds, Fetched: 3 row(s)

　　In查询可以转化为半连接查询。必须遵循一个限制：右表(sales)只能在ON子句中出现。

hive> select * from things

    > LEFT SEMI JOIN sales ON(sales.id=things.id);

OK

2       Tie

4       Coat

3       Hat

Time taken: 13.169 seconds, Fetched: 3 row(s)

3.Map-side Join 具体JAVA-API实现详见MR案例：Map-Join

Join操作在 map 阶段完成，因此无需 reduce 阶段
适合一个大表，一个小表的 Join 操作
思想：小表复制到各个节点上，并加载到内存中；而对大表进行分片，每个分片与小表完成 Join 操作

select /*+ mapjoin(things) */ sales.*,things.*

from sales join things on sales.id=things.id;

//等同于

select sales.*,things.*

from sales join things on sales.id=things.id;

hive 0.6 的时候默认认为写在select 后面的是大表，前面的是小表，或者使用 /*+mapjoin(map_table) */ 手工进行设定。
hive 0.7 以后这个计算是自动完成，设置 hive.auto.convert.join=true ，hive会自动判断哪个是小表，哪个是大表。判断小表的依据是hive.smalltable.filesize=25000000L(默认是25M)，当小表超过这个大小，hive会自动转化成common join，即reduce-join。

4.Reduce-side Join 具体JAVA-API实现详见MR案例：Reduce-Join

Join操作在reduce task中完成【默认的join方式】
适合两个大表连接操作
思想：map端按照连接字段进行hash，reduce 端完成连接操作

5.用于多于2个表的Join(有区别)

SELECT a.val, b.val, c.val FROM a

  JOIN b ON (a.key = b.key1)

  JOIN c ON (c.key = b.key1);

如果 Join 的 key 相同，不管有多少个表，都会则会合并为一个 Map-Reduce

SELECT a.val, b.val, c.val FROM a

  JOIN b ON (a.key = b.key1)

  JOIN c ON (c.key = b.key2);

如果 Join 的条件不相同，Map-Reduce 的任务数目和 Join 操作的次数是相对应.(本例2次)

6.Join每次MR任务的逻辑

reducer 会缓存 join 序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统。这一实现有助于在 reduce 端减少内存的使用量。实践中，应该把最大的那个表写在最后（否则会因为缓存浪费大量内存）。例如：

 SELECT a.val, b.val, c.val FROM a

    JOIN b ON (a.key = b.key1)

    JOIN c ON (c.key = b.key1);

使用 1 次MR任务，reduce 端会缓存 a 表和 b 表的记录，然后每次取得一个 c 表的记录就计算一次 join 结果。

  SELECT a.val, b.val, c.val FROM a

    JOIN b ON (a.key = b.key1)

    JOIN c ON (c.key = b.key2);

使用 2 次MR任务，第一次缓存 a 表，用 b 表序列化；第二次缓存第一次 map/reduce 任务的结果，然后用 c 表序列化。

Hive查询Join的更多相关文章

Hive的join表连接查询的一些注意事项
Hive支持的表连接查询的语法: join_table: table_reference JOIN table_factor [join_condition] | table_reference {L ...
hive的join查询
hive的join查询语法 join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_refere ...
【HIVE】（3）联合查询join、时间戳函数、字符串函数
数据 t_join1.txt 1,a,1 2,b,2 3,c,4 t_join2.txt 1,2a 2,2b 3,2c 建表.导入: create table t_join1(id int, name ...
hive：join操作
hive的多表连接,都会转换成多个MR job,每一个MR job在hive中均称为Join阶段.按照join程序最后一个表应该尽量是大表,因为join前一阶段生成的数据会存在于Reducer 的bu ...
Hive 中Join的专题---Join详解
1.什么是等值连接? 2.hive转换多表join时,如果每个表在join字句中,使用的都是同一个列,该如何处理? 3.LEFT,RIGHT,FULL OUTER连接的作用是什么? 4.LEFT或RI ...
Hive中Join的类型和用法
关键字:Hive Join.Hive LEFT|RIGTH|FULL OUTER JOIN.Hive LEFT SEMI JOIN.Hive Cross Join Hive中除了支持和传统数据库中一样 ...
Hive 基本语法操练（五）：Hive 的 JOIN 用法
Hive 的 JOIN 用法 hive只支持等连接,外连接,左半连接.hive不支持非相等的join条件(通过其他方式实现,如left outer join),因为它很难在map/reduce中实现这 ...
hive查询不加分区的一个异常
今天下午有同事反馈她提交了了一个SQL后,hive 查询就停止响应了. 我看了下,发现hiveserver确实hug住了.听过查看日志,发现了一个牛逼的SQL, 这个SQL很简单: select a. ...
hive的join优化
“国际大学生节”又称“世界大学生节”.“世界学生日”.“国际学生日”.1946年,世界各国学生代表于布拉格召开全世界学生大会,宣布把每年的11月17日定为“世界大学生节”,以加强全世界大学生的团结和友 ...

随机推荐

【转】spring boot application.properties 配置参数详情
multipart multipart.enabled 开启上传支持(默认:true) multipart.file-size-threshold: 大于该值的文件会被写到磁盘上 multipart. ...
使用nginx搭建文件下载服务器
搭建一个文件服务器的方式有很多,本文介绍笔者曾经用过的两种: 使用nginx 使用java服务,通过controller提供一.使用nginx搭建在nginx.conf中直接配置server即可, ...
Linux包管理及yum
1.光盘挂载 mount /dev/cdrom /mntcd /mnt 2.安装rpm包 rpm -ivh vsftpd-3.0.2-22.el7.x86_64.rpm rpm -Uvh vsftp ...
用 Python 实现每秒处理 120 万次 HTTP 请求
用 Python 做到每秒处理上百万次 HTTP 请求,可能吗?也许不能,但直到最近,这已成为现实. 很多公司都在为了提升程序的执行性能和降低服务器的运营成本,而放弃 Python 去选择其它编程语言 ...
Python的15个坑
1. 不要使用可变对象作为函数默认值代码如下: In [1]: def append_to_list(value, def_list=[]): ...: def_list.ap ...
VirtualBox network / study environment setup for RHEL
I re-visited the RHEL study material and setup the environment again, noted down the procedure. 1, c ...
Java设计模式-工厂方法模式（Virtual Constructor/Polymorphic Factory）
工厂方法模式(Virtual Constructor/Polymorphic Factory) 工厂方法模式是类的创建模式,又叫做虚拟构造子模式(Virtual Constructor)或者多态性工厂 ...
notepad插件：url变成可以点击的连接
使用DAO工厂创建实现类对象
首先分析DAO模式中的每一部分 VO(对象实体):这个类成员变量与数据库中每个字段一一对应,同时提供了相应是set和get方法来设置或取得数值.这个类一般是通过IDE自动生成的 DAO(数据访问接口) ...
linux环境上运行.net core 初探
1.安装 .net core 环境 rpm --import https://packages.microsoft.com/keys/microsoft.ascsh -c 'echo -e " ...

Hive查询Join

Hive查询Join的更多相关文章

随机推荐

热门专题