Spark DataFrame中的join使用说明

吊车尾88 2024-08-29 00:32:22 原文

spark sql 中join的类型

Spark DataFrame中join与SQL很像，都有inner join, left join, right join, full join;

类型	说明
inner join	内连接
left join	左连接
right join	右连接
full join	全连接

spark join 看其原型

def join(right : DataFrame, usingColumns : Seq[String], joinType : String) : DataFrame
def join(right : DataFrame, joinExprs : Column, joinType : String) : DataFrame

joinType可以是”inner”、“left”、“right”、“full”分别对应inner join, left join, right join, full join，默认值是”inner”，代表内连接

例子：

a表

id	job
1	张3
2	李四
3	王武

b表

id	job	parent_id
1	23	1
2	34	2
3	34	4

内连接

内连接：内连接查询操作列出与连接条件匹配的数据行，它使用比较运算符比较被连接列的列值。

df.join(df, Seq("city", "state"), "inner").show

df.join(df, Seq("city", "state")).show

Seq是指连接的字段，这个相当于

 SELECT   a.au_fname,   a.au_lname,   p.pub_name

   FROM   authors   AS   a   INNER   JOIN   publishers   AS   p

        ON   a.city   =   p.city

        AND   a.state   =   p.state

  ORDER   BY   a.au_lname   ASC,   a.au_fname   ASC

结果是

1 张三 1 23 1
2 李四 2 34 2

内连接指定列名

df.join(df, $"city"===$"city", "inner").show

df.join(df, $"city"===$"city").show

左外连接

左联接：是以左表为基准，将a.stuid = b.stuid的数据进行连接，然后将左表没有的对应项显示，右表的列为NULL

df.join(df, Seq("city", "state"), "left").show

结果是

1 张三 1 23 1
2 李四 2 34 2
3 王武 null null null

Spark DataFrame中的join使用说明的更多相关文章

Spark 中的join方式(pySpark)
spark基础知识请参考spark官网:http://spark.apache.org/docs/1.2.1/quick-start.html 无论是mapreduce还是spark ,分布式框架的性 ...
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子
[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子 sqlContext = HiveContext(sc) peopleDF = sqlContext. ...
[Spark][Python]DataFrame中取出有限个记录的例子
[Spark][Python]DataFrame中取出有限个记录的例子: sqlContext = HiveContext(sc) peopleDF = sqlContext.read.json(&q ...
Spark SQL中出现 CROSS JOIN 问题解决
Spark SQL中出现 CROSS JOIN 问题解决 1.问题显示如下所示: Use the CROSS JOIN syntax to allow cartesian products b ...
Spark获取DataFrame中列的方式--col，$，column，apply
Spark获取DataFrame中列的方式--col,$,column,apply 1.官方说明 2.使用时涉及到的的包 3.Demo 原文作者:大葱拌豆腐原文地址:Spark获取DataFrame ...
spark dataframe操作集锦（提取前几行，合并，入库等）
https://blog.csdn.net/sparkexpert/article/details/51042970 spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当 ...
spark DataFrame 常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能.当然主要对类SQL的支持. 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选.合并,重新入库. 首先加载数据集 ...
Spark Streaming中的操作函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations J ...
Spark:DataFrame 写入文本文件
将DataFrame写成文件方法有很多最简单的将DataFrame转换成RDD,通过saveASTextFile进行保存但是这个方法存在一些局限性:1.将DataFrame转换成RDD或导致数据结构的 ...

随机推荐

C语言变长参数实现
#include<stdio.h> #include<string.h> #include<stdarg.h> /***编写可变长参数列表的函数案例*/ /* vo ...
(52) C# 串口通讯
一.串口通讯基本参数 1.波特率:每秒传输n个多少个二进制位. 例如 9600 b/s = 1200 B/s= 1.172KB/S 2.传输数据格式数据格式由起始位(start bit).数据位 ...
Dubbo入门到精通学习笔记（十二）：Dubbo消费端直连提供者（开发调试）、Dubbo服务只订阅（开发调试）、Dubbo服务只注册
文章目录 Dubbo消费端直连提供者(开发调试) Dubbo服务只订阅(开发调试) Dubbo服务只注册 Dubbo消费端直连提供者(开发调试) Dubbo 官方文档: 用户指南 >> 示 ...
C++——编译器运行过程
C++ 编译过程简介 C/C++程序编译流程: 预处理->编译->汇编->链接具体的就是: 源代码(source coprede)→预处理器(processor)→编译器(co ...
python中函数的定义及调用
python中函数的定义及使用方法 1.函数的概念:函数是将具有独立功能的代码块组织为一个整体,使其具有特殊功能的代码集; 2.函数的作用:使用函数可以加强代码的复用性,提高程序编写的效率; 3.函数 ...
bigger is greater
题目: Lexicographical order is often known as alphabetical order when dealing with strings. A string i ...
java-day23
事务的四大特征: 1.原子性:是不可分割的最小操作单位,要么同时成功,要么同时失败. 2.持久性:当事务提交或回滚后,数据库会持久化的保存数据. 3.隔离性:多个事务之间,相互独立. 4.一致性:事务 ...
<随便写>数据库调优的几种方式
1.创建索引要尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引在经常需要进行检索的字段上创建索引,比如要按照表字段username进行检索,那么就应该在姓名字段 ...
欧拉筛线性筛素数+莫比乌斯的mu[]
https://blog.csdn.net/qq_39763472/article/details/82428602 模板来自https://blog.csdn.net/Avalon_cc/artic ...
8u ftp 可以连接但是无法获取目录的解决办法：无法打开传输通道。原因：由于...
来自: http://www.3566t.com/news/dlsn/1557906.html 状态: 正在取得目录列表... 命令: CWD xinghun 响应: 250 OK. Curre ...