Spark SQL如何选择join策略

前言

众所周知，Catalyst Optimizer是Spark SQL的核心，它主要负责将SQL语句转换成最终的物理执行计划，在一定程度上决定了SQL执行的性能。

Catalyst在由Optimized Logical Plan生成Physical Plan的过程中，会根据：

abstract class SparkStrategies extends QueryPlanner[SparkPlan]

中的JoinSelection通过一些规则按照顺序进行模式匹配，从而确定join的最终执行策略，并且策略的选择会按照执行效率由高到低的优先级排列。

在了解join策略选择之前，首先看几个先决条件：

1. build table的选择

Hash Join的第一步就是根据两表之中较小的那一个构建哈希表，这个小表就叫做build table，大表则称为probe table，因为需要拿小表形成的哈希表来"探测"它。源码如下：

/* 左表作为build table的条件，join类型需满足：

   1. InnerLike：实现目前包括inner join和cross join

   2. RightOuter：right outer join

*/

private def canBuildLeft(joinType: JoinType): Boolean = joinType match {

  case _: InnerLike | RightOuter => true

  case _ => false

}

/* 右表作为build table的条件，join类型需满足（第1种是在业务开发中写的SQL主要适配的）：

   1. InnerLike、LeftOuter（left outer join）、LeftSemi（left semi join）、LeftAnti（left anti join）

   2. ExistenceJoin：only used in the end of optimizer and physical plans, we will not generate SQL for this join type

*/

private def canBuildRight(joinType: JoinType): Boolean = joinType match {

  case _: InnerLike | LeftOuter | LeftSemi | LeftAnti | _: ExistenceJoin => true

  case _ => false

}

2. 满足什么条件的表才能被广播

如果一个表的大小小于或等于参数spark.sql.autoBroadcastJoinThreshold（默认10M）配置的值，那么就可以广播该表。源码如下：

private def canBroadcastBySizes(joinType: JoinType, left: LogicalPlan, right: LogicalPlan)

  : Boolean = {

  val buildLeft = canBuildLeft(joinType) && canBroadcast(left)

  val buildRight = canBuildRight(joinType) && canBroadcast(right)

  buildLeft || buildRight

}

private def canBroadcast(plan: LogicalPlan): Boolean = {

  plan.stats.sizeInBytes >= 0 && plan.stats.sizeInBytes <= conf.autoBroadcastJoinThreshold

}

private def broadcastSideBySizes(joinType: JoinType, left: LogicalPlan, right: LogicalPlan)

  : BuildSide = {

  val buildLeft = canBuildLeft(joinType) && canBroadcast(left)

  val buildRight = canBuildRight(joinType) && canBroadcast(right)

  // 最终会调用broadcastSide

  broadcastSide(buildLeft, buildRight, left, right)

}

除了通过上述表的大小满足一定条件之外，我们也可以通过直接在Spark SQL中显示使用hint方式（/*+ BROADCAST(small_table) */），直接指定要广播的表，源码如下：

private def canBroadcastByHints(joinType: JoinType, left: LogicalPlan, right: LogicalPlan)

  : Boolean = {

  val buildLeft = canBuildLeft(joinType) && left.stats.hints.broadcast

  val buildRight = canBuildRight(joinType) && right.stats.hints.broadcast

  buildLeft || buildRight

}

private def broadcastSideByHints(joinType: JoinType, left: LogicalPlan, right: LogicalPlan)

  : BuildSide = {

  val buildLeft = canBuildLeft(joinType) && left.stats.hints.broadcast

  val buildRight = canBuildRight(joinType) && right.stats.hints.broadcast

  // 最终会调用broadcastSide

  broadcastSide(buildLeft, buildRight, left, right)

}

无论是通过表大小进行广播还是根据是否指定hint进行表广播，最终都会调用broadcastSide，来决定应该广播哪个表：

private def broadcastSide(

     canBuildLeft: Boolean,

     canBuildRight: Boolean,

     left: LogicalPlan,

     right: LogicalPlan): BuildSide = {

   def smallerSide =

     if (right.stats.sizeInBytes <= left.stats.sizeInBytes) BuildRight else BuildLeft

  if (canBuildRight && canBuildLeft) {

    // 如果左表和右表都能作为build table，则将根据表的统计信息，确定physical size较小的表作为build table（即使两个表都被指定了hint）

    smallerSide

  } else if (canBuildRight) {

     // 上述条件不满足，优先判断右表是否满足build条件，满足则广播右表。否则，接着判断左表是否满足build条件

    BuildRight

  } else if (canBuildLeft) {

    BuildLeft

  } else {

    // 如果左表和右表都不能作为build table，则将根据表的统计信息，确定physical size较小的表作为build table。目前主要用于broadcast nested loop join

    smallerSide

  }

}

从上述源码可知，即使用户指定了广播hint，实际执行时，不一定按照hint的表进行广播。

3. 是否可构造本地HashMap

应用于Shuffle Hash Join中，源码如下：

// 逻辑计划的单个分区足够小到构建一个hash表

// 注意：要求分区数是固定的。如果分区数是动态的，还需满足其他条件

private def canBuildLocalHashMap(plan: LogicalPlan): Boolean = {

  // 逻辑计划的physical size小于spark.sql.autoBroadcastJoinThreshold * spark.sql.shuffle.partitions（默认200）时，即可构造本地HashMap

  plan.stats.sizeInBytes < conf.autoBroadcastJoinThreshold * conf.numShufflePartitions

}

我们知道，SparkSQL目前主要实现了3种join：Broadcast Hash Join、ShuffledHashJoin、Sort Merge Join。那么Catalyst在处理SQL语句时，是依据什么规则进行join策略选择的呢？

1. Broadcast Hash Join

主要根据hint和size进行判断是否满足条件。

// broadcast hints were specified

case ExtractEquiJoinKeys(joinType, leftKeys, rightKeys, condition, left, right)

   if canBroadcastByHints(joinType, left, right) =>

   val buildSide = broadcastSideByHints(joinType, left, right)

   Seq(joins.BroadcastHashJoinExec(

     leftKeys, rightKeys, joinType, buildSide, condition, planLater(left), planLater(right)))

// broadcast hints were not specified, so need to infer it from size and configuration.

case ExtractEquiJoinKeys(joinType, leftKeys, rightKeys, condition, left, right)

   if canBroadcastBySizes(joinType, left, right) =>

   val buildSide = broadcastSideBySizes(joinType, left, right)

   Seq(joins.BroadcastHashJoinExec(

     leftKeys, rightKeys, joinType, buildSide, condition, planLater(left), planLater(right)))

2. Shuffle Hash Join

选择Shuffle Hash Join需要同时满足以下条件：

spark.sql.join.preferSortMergeJoin为false，即Shuffle Hash Join优先于Sort Merge Join
右表或左表是否能够作为build table
是否能构建本地HashMap
以右表为例，它的逻辑计划大小要远小于左表大小（默认3倍）

上述条件优先检查右表。

case ExtractEquiJoinKeys(joinType, leftKeys, rightKeys, condition, left, right)

    if !conf.preferSortMergeJoin && canBuildRight(joinType) && canBuildLocalHashMap(right)

      && muchSmaller(right, left) ||

      !RowOrdering.isOrderable(leftKeys) =>

   Seq(joins.ShuffledHashJoinExec(

     leftKeys, rightKeys, joinType, BuildRight, condition, planLater(left), planLater(right)))

case ExtractEquiJoinKeys(joinType, leftKeys, rightKeys, condition, left, right)

     if !conf.preferSortMergeJoin && canBuildLeft(joinType) && uildLocalHashMap(left)

       && muchSmaller(left, right) ||

       !RowOrdering.isOrderable(leftKeys) =>

    Seq(joins.ShuffledHashJoinExec(

      leftKeys, rightKeys, joinType, BuildLeft, condition, planLater(left), planLater(right)))

private def muchSmaller(a: LogicalPlan, b: LogicalPlan): Boolean = {

  a.stats.sizeInBytes * 3 <= b.stats.sizeInBytes

}

如果不满足上述条件，但是如果参与join的表的key无法被排序，即无法使用Sort Merge Join，最终也会选择Shuffle Hash Join。

‍

!RowOrdering.isOrderable(leftKeys)

def isOrderable(exprs: Seq[Expression]): Boolean = exprs.forall(e => isOrderable(e.dataType))

3. Sort Merge Join

如果上面两种join策略（Broadcast Hash Join和Shuffle Hash Join）都不符合条件，并且参与join的key是可排序的，就会选择Sort Merge Join。

case ExtractEquiJoinKeys(joinType, leftKeys, rightKeys, condition, left, right)

   if RowOrdering.isOrderable(leftKeys) =>

   joins.SortMergeJoinExec(

     leftKeys, rightKeys, joinType, condition, planLater(left), planLater(right)) :: Nil

4. Without joining keys

Broadcast Hash Join、Shuffle Hash Join和Sort Merge Join都属于经典的ExtractEquiJoinKeys（等值连接条件）。

对于非ExtractEquiJoinKeys，则会优先检查表是否可以被广播（hint或者size）。如果可以，则会使用BroadcastNestedLoopJoin（简称BNLJ），熟悉Nested Loop Join则不难理解BNLJ，主要却别在于BNLJ加上了广播表。

源码如下：

// Pick BroadcastNestedLoopJoin if one side could be broadcast

case j @ logical.Join(left, right, joinType, condition)

    if canBroadcastByHints(joinType, left, right) =>

  val buildSide = broadcastSideByHints(joinType, left, right)

  joins.BroadcastNestedLoopJoinExec(

    planLater(left), planLater(right), buildSide, joinType, condition) :: Nil

case j @ logical.Join(left, right, joinType, condition)

    if canBroadcastBySizes(joinType, left, right) =>

  val buildSide = broadcastSideBySizes(joinType, left, right)

  joins.BroadcastNestedLoopJoinExec(

    planLater(left), planLater(right), buildSide, joinType, condition) :: Nil

如果表不能被广播，又细分为两种情况：

若join类型InnerLike（关于InnerLike上面已有介绍）对量表直接进行笛卡尔积处理若
上述情况都不满足，最终方案是选择两个表中physical size较小的表进行广播，join策略仍为BNLJ

源码如下：

// Pick CartesianProduct for InnerJoin

case logical.Join(left, right, _: InnerLike, condition) =>

  joins.CartesianProductExec(planLater(left), planLater(right), condition) :: Nil

case logical.Join(left, right, joinType, condition) =>

  val buildSide = broadcastSide(

    left.stats.hints.broadcast, right.stats.hints.broadcast, left, right)

  // This join could be very slow or OOM

  joins.BroadcastNestedLoopJoinExec(

    planLater(left), planLater(right), buildSide, joinType, condition) :: Nil

很显然，无论SQL语句最终的join策略选择笛卡尔积还是BNLJ，效率都很低，这一点在实际应用中，要尽量避免。

关注 微信公众号：大数据学习与分享，获取更对技术干货

Spark SQL如何选择join策略的更多相关文章

自适应查询执行：在运行时提升Spark SQL执行性能
前言 Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO.但是在这些版本中,Spark SQL执行计划一旦确定就不会改变.由于缺乏或者不 ...
Spark SQL中Not in Subquery为何低效以及如何规避
首先看个Not in Subquery的SQL: // test_partition1 和 test_partition2为Hive外部分区表 select * from test_partition ...
Spark SQL概念学习系列之Spark SQL 优化策略（五）
查询优化是传统数据库中最为重要的一环,这项技术在传统数据库中已经很成熟.除了查询优化, Spark SQL 在存储上也进行了优化,从以下几点查看 Spark SQL 的一些优化策略. (1)内存列式存 ...
Spark SQL 性能优化再进一步：CBO 基于代价的优化
摘要: 本文将介绍 CBO,它充分考虑了数据本身的特点(如大小.分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan. Spark ...
46、Spark SQL工作原理剖析以及性能优化
一.工作原理剖析 1.图解二.性能优化 1.设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf()) 2.在Hive数据 ...
Spark SQL join的三种实现方式
引言 join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操 ...
47、Spark SQL核心源码深度剖析(DataFrame lazy特性、Optimizer优化策略等)
一.源码分析 1. ###入口org.apache.spark.sql/SQLContext.scala sql()方法: /** * 使用Spark执行一条SQL查询语句,将结果作为DataFram ...
Spark SQL Table Join(Python)
示例 Spark SQL注册“临时表”执行“Join”(Inner Join.Left Outer Join.Right Outer Join.Full Outer Join) 代码 fr ...
Spark SQL中的几种join
1.小表对大表(broadcast join) 将小表的数据分发到每个节点上,供大表使用.executor存储小表的全部数据,一定程度上牺牲了空间,换取shuffle操作大量的耗时,这在SparkSQ ...

随机推荐

python函数收集不确定数量的值
python写函数的时候,有时候会不确定到底传入多少值. 首先是,*args,单星号参数收集参数: 1 #!usr/bin/python 2 #-*-coding:utf-8-*- 3 4 #定义一个 ...
JDK、JRE、JVM，是什么关系？
作者:小傅哥博客:https://bugstack.cn Github:https://github.com/fuzhengwei/CodeGuide/wiki 沉淀.分享.成长,让自己和他人都能有 ...
论文阅读： A Review of Robot Learning for Manipulation: Challenges, Representations, and Algorithms
机器人学习操纵综述:挑战,表示形式和算法 1.介绍因此,研究人员专注于机器人应如何学习操纵周围世界的问题. 这项研究的范围很广,从学习个人操作技巧到人类演示,再到学习适用于高级计划的操作任务的抽象描 ...
Xrdp远程连接到CentOS7系统配置
1 服务器端配置 1.1 查询是否已经安装epel库打开已经安装了CentOS7的主机,以root用户登录,在桌面上打开一个终端,输入命令:rpm -qa|grep epel,查询 ...
（八）、rm--删除文件或者目录
一.命令的描述与格式永久地删除文件或者目录,此命令具有破坏性,一旦删除,没有备份,无法恢复格式:rm [选项] 文件或者目录 -d或者--directory ...
SQL Server中datetimeset转换datetime类型问题浅析
在SQL Server中,数据类型datetimeoffset转换为datetime类型或datetime2类型时需要特别注意,有可能一不小心你可能会碰到下面这种情况.下面我们构造一个简单案例,模拟一 ...
Qt学习笔记-启动一个额外的应用程序-获取输入的回车信号
现在让我们的程序模拟windows下的运用程序. 在命令行中输入命令.点击确定即可运行系统中的程序. 添加头文件#include <QProcess> 在确定按钮的响应函数中写上功能要求. ...
java Stream学习笔记
1.Stream与io无关. 2.Stream和用普通的循环没有太大区别,甚至时间复杂度更高,代码可读性差(通常代码行数更少). 3.流操作就是把循环要做的任务单独抽取出来,最终通过编译在一起. 来看 ...
MySQL性能分析show profiles详解
前言前几篇文章我们讲了什么是 MySQL 索引,explain分析SQL语句是否用到索引,以及索引的优化等一系列的文章,今天我们来讲讲Show profiles,看看SQL耗时到底出现在哪个环节. ...
java混淆工具字符串加密程序加密代码逻辑混淆防止反编译
混淆工具使用文档 ht-confusion-project1.0.0 目录 1.功能介绍... 1 2.安装说明... 3 2.1Window查询jdk版本(点击开始菜单,输入cmd, 输入java ...

Spark SQL如何选择join策略

Spark SQL如何选择join策略的更多相关文章

随机推荐

热门专题