大数据场景下，联表远比微小型关系型数据库中使用的频繁。网上有句话：

 传统数据库单机模式做Join的场景毕竟有限，也建议尽量减少使用Join。

 然而大数据领域就完全不同，Join是标配，OLAP业务根本无法离开表与表之间的关联，对Join的支持成熟度一定程度上决定了系统的性能，夸张点说，'得Join者得天下'。

 -- SparkSQL – 有必要坐下来聊聊Join – 有态度的HBase/Spark/BigData (hbasefly.com)

不同数据库引擎对JOIN的实现算法一般不同，我们最常用的mysql中的join实现是Nested Loop Join （MySQL中Join算法实现原理通俗易懂_墨卿风竹的博客-CSDN博客），Spark中支持的要更广泛。

下面我们创造两个DF来进行测试。

private static List<Customer> getCustomers() {
List<Customer> customerList = new ArrayList<>(3);
customerList.add(new Customer(100, "张三"));
customerList.add(new Customer(101, "张四"));
customerList.add(new Customer(102, "张五"));
System.out.println("Customer: " + customerList);
return customerList;
}
private static List<Payment> getPayments() {
Random random = new Random(0);
List<Payment> paymentList = new ArrayList<>(6);
for (int a = 0; a < 6; a++) {
int i = random.nextInt(10000);
Payment p = new Payment((long) (a + 1), (long) (100+ a), (double) i);
paymentList.add(p);
}
System.out.println("Payment: " + paymentList);
return paymentList;
}

Inner Join

内连接是spark默认的连接方式。通过join方法即可使用内连接：

你要这样用的话，会发现还有一个方法不用传入连接字段，猜一下输出什么：

上面这种连接只能指定一个连接字段，如果需要多字段匹配呢？spark提供了另一个方法：

这个方法的第二个参数Java没法直接提供，需要转换一下：

left join

DF没有直接提供leftJoin这样的方法，只提供了join()和crossJoin()两个。从上面的文档截图可以看到，通过传第三个参数来指定不同的连接方式。

现在对Java程序员不太友好了，每次join都要先转一次：可能这也是网上的博客、教程都用scala的原因吧。

right join

和left join类似：

outer join

全外连接是左外和右外的组合，这里不演示了。

cross join

这个上面提到了，有对应的方法。它产生的是笛卡尔积，会产生大量结果：

这个方法是2.1之后增加的。之前也是通过join方法实现，但是会被不小心误用，就增加了一个明确的方法。

Left-Semi-Join

左半连接和左连接比较类似，差别是结果中不包含右表字段，仅包含左表字段。

左连接不是既包含左表字段，又有右表字段，右表中不匹配的字段也显示但是为null。左半连接是右表不匹配的记录左表就不展示了，实际更应该叫semi-inner-join。它相当于关系型SQL中的子查询。

但是由于只返回左表，所以叫左半连接。同时并不提供右半连接操作，因为它就是内连接。

下面是连接方式映射

Left-anti-Join

左反连接是左半连接的取反，并不是右半连接。它展示的是左连接以后，右表是null的那些左表数据，也就是内连接以后左表的补集。相等于关系型数据库的not in。

Self Join

自连接就是DF跟自己连接，所以需要通过别名来区分两个DF。

自连接我们再Mysql中用的不少，一般用来查询层级数据，比如有父子关系的记录。为了简单，假设Payment中两个字段有父子关系，于是这样查询：

上面造的数据都不满足，所以改成这样：

运行输出是

如果把第一个参数的开始值改成98，输出就是

Null 字段匹配

假设在连接过程中（任何连接场景），连接字段出现了null会怎么样？

假设payement记录如下

默认情况下，spark会忽略这些记录，如果不想忽略可以这样：

import static org.apache.spark.sql.functions.col;
Dataset<Row> join = payment.as("c1").join(payment.as("c2"), col("c1.paymentId").eqNullSafe(col("c2.customerId")));
join.show();

这里使用了方法eqNullSafe

结果如下

现在连customer也改成null看一下

两张表内连接结果如下

改成使用方法eqNullSage，结果如下

好像看起来不错，但你去把结果跟最早的结果（没比较Null的时候）对比发现，这里customerId出现了两次，而之前只出现了一次。

这里可以使用drop方法移除列：

join.drop("customerId").show();
join.drop(payment.col("customerId")).show();

效果可以猜一下。

JoinWith

最后说一下这个方法。从它的签名可以猜出作用：

把前面内连接的例子改成joinWith方法：

结果中每一行是一个元组，元组的两个元素分别是两个表的原始记录。

最后

已经都来到这了，你不想知道左半连接或左反连接的joinWith结果是啥吗？

Spark3学习【基于Java】5. Spark-Sql联表查询JOIN的更多相关文章

SQL联表查询
数据库中最最常用的语法----select.简单的select语法很直白: select column from table where expression: 从((from)存储数据的地方(tab ...
基于双下划线的跨表查询 (join查询)
因为你的数据库中的查询就是重点那么你的django提供的orm也是查询语句最重点 ,也提供的查询方法比较的多,下面我们学习下类似于MYSQL的连表(join)查询 Django 还提供了一种直观而 ...
vb.net DBEntities框架联表查询 Join
在项目中配置好DBEntities 使用两个表:主表Table, 子表Table_Item 主要是用到了委托和泛型,ForEach用的是不带返回值的委托 Sub GetDb() Dim st As N ...
[慢查优化]联表查询注意谁是驱动表 & 你搞不清楚谁join谁更好时请放手让mysql自行判定
写在前面的话: 不要求每个人一定理解联表查询(join/left join/inner join等)时的mysql运算过程: 不要求每个人一定知道线上(现在或未来)哪张表数据量大,哪张表数据量小: ...
【转】[慢查优化]联表查询注意谁是驱动表 & 你搞不清楚谁join谁更好时请放手让mysql自行判定
转自:http://zhengyun-ustc.iteye.com/blog/1942797 写在前面的话: 不要求每个人一定理解联表查询(join/left join/inner join等)时的 ...
【explain】MySQL联表查询中的驱动表
写在前面 1.不要求每个人一定理解联表查询(join/left join/inner join等)时的mysql运算过程 2.不要求每个人一定知道线上(现在或未来)哪张表数据量大,哪张表数据量小 3 ...
django orm 基于双下划线的跨表查询
一..基于双下划线的跨表查询(join实现) key:正向查询按字段,反向查询按表明小写 1.一对多跨表查询查询在跨表中可以有两种方式,正向查询就是关键字段在你要搜索的表,没有关键字段就是反向查询 ...
Django学习——图书相关表关系建立、基于双下划线的跨表查询、聚合查询、分组查询、F查询、Q查询、admin的使用、使用脚本调用Django、Django查看源生sql
0 图书相关表关系建立 1.5个表 2.书籍表,作者表,作者详情表(垂直分表),出版社表,书籍和作者表(多对多关系) 一对一多对多本质都是一对多外键关系 3.一对一的关系,关联字段可以写在任意一 ...
sql学习笔记（三）—— 联表查询
上篇写了一些sql查询的知识,这篇接着写一下有关联表查询的知识. 既然是联表查询,那肯定得多个表啊,所以,我们先创建一个教师表,表名为 teacher,并且向表中插入数据. 准备工作: 创建表语句: ...
MyBatis学习存档（5）——联表查询
之前的数据库操作都是基于一张表进行操作的,若一次查询涉及到多张表,那该如何进行操作呢? 首先明确联表查询的几个关系,大体可以分为一对一和一对多这两种情况,接下来对这两种情况进行分析: 一.建立表.添加 ...

随机推荐

Git reset 的hard、soft、mixed参数对比
目录分区概念 1. --soft参数 2. --mixed参数 3. --hard参数分区概念先要清楚在本地,git会分三个区:工作区.暂存区.本地库. 当使用去做版本移动的时候,那么在使用[- ...
iceoryx源码阅读（六）——共享内存创建
目录 1 共享内存的组织 2 共享内存创建 2.1 IceOryxRouDiMemoryManager::createAndAnnounceMemory 2.2 RouDiMemoryManager: ...
ansible(19)--ansible的playbook
目录 1. playbook简介 2. playbook编写规范 2.1 YAML语法规范 2.2 YAML语法要素 2.3 Playbook核心元素 2.4 Playbook的基础组件 3 Play ...
ansible(12)--ansible的cron模块
1. cron模块功能:管理被控端计划任务: 主要参数如下: 参数说明 name 定时任务基本描述 job 定时任务要执行的命令 minute 分 hour 小时 day 日 month 月 we ...
C#.Net筑基-运算符🔣Family
C#运算符内置了丰富的运算符操作类型,使用方便,极大的简化了编码,同时还支持多种运算符重载机制,让自定义的类型也能支持运算符行为. 01.运算符概览运算符分类描述数学运算基础的加减乘除,及+ ...
网络安全—模拟IP代理隐藏身份
文章目录网络拓扑安装使用代理服务器设置隐藏者设置使用古老的ccproxy实现代理服务器,仅做实验用途,禁止做违法犯罪的事情,后果自负. 网络拓扑均使用Windows Server 200 ...
centos7系统的七个运行级别和设置默认运行级别
一.系统七个运行级别概述 0 系统停机模式,系统默认运行级别不能设置为0,否则不能正常启动,机器关的 1 单用户模式,root权限,用于系统维护,禁止远程登陆,就像Windows下的安全模式登录 2 ...
Android 13 - Media框架（23）- ACodecBufferChannel
关注公众号免费阅读全文,进入音视频开发技术分享群! 这一节我们将了解 ACodecBufferChannel 上一节我们了解到input buffer 和 output buffer 是如何分配的了, ...
Base64编码解码支持解码为 16进制
https://base64.xhlylx.com/
vscode设置护眼色
参考链接:https://blog.csdn.net/qq_39233554/article/details/105639331?depth_1- 打开VS code选择'文件'→'首选项'→'设置' ...

Spark3学习【基于Java】5. Spark-Sql联表查询JOIN