Spark(八)【利用广播小表实现join避免Shuffle】

2024-08-30 01:44:30 原文

目录

使用场景
核心思路
代码演示
不适用场景

使用场景

大表join小表只能广播小表

普通的join是会走shuffle过程的，而一旦shuffle，就相当于会将相同key的数据拉取到一个shuffle read task中再进行join，此时就是reduce join。但是如果一个RDD是比较小的，则可以采用广播小RDD全量数据+map算子来实现与join同样的效果，也就是map join，此时就不会发生shuffle操作，也就不会发生数据倾斜。

注意：RDD是并不能进行广播的，只能将RDD内部的数据通过collect拉取到Driver内存然后再进行广播

核心思路

将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来，然后对其创建一个Broadcast变量；接着对另外一个RDD执行map类算子，在算子函数内，从Broadcast变量中获取较小RDD的全量数据，与当前RDD的每一条数据按照连接key进行比对，如果连接key相同的话，那么就将两个RDD的数据用你需要的方式连接起来。

代码演示

正常join

    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("MapJoin")

    val sc: SparkContext = new SparkContext(conf)

    val rdd1: RDD[(String, Int)] = sc.makeRDD(List("key1" -> 2, "key1" -> 10, "key2" -> 20, "key3" -> 30))

    val rdd2: RDD[(String, Int)] = sc.makeRDD(List("key1" -> 5, "key1" -> 20, "key2" -> 40, "key4" -> 30))

	 //join

    rdd1.join(rdd2).collect().foreach(println)

控制台

(key1,(2,5))

(key1,(2,20))

(key1,(10,5))

(key1,(10,20))

(key2,(20,40))

正常left join

//left join

rdd1.leftOuterJoin(rdd2).collect().foreach(println)

(k1,(10,Some(-10)))

(k1,(10,Some(-100)))

(k2,(20,Some(-20)))

(k1,(100,Some(-10)))

(k1,(100,Some(-100)))

(k3,(30,None))

广播：join

    //广播rdd2

    val bd: Broadcast[Array[(String, Int)]] = sc.broadcast(rdd2.collect())

    val result = rdd1.flatMap {

      case (key1, value1) => {

        bd.value

          .filter(key1 == _._1)

          .map {

            case (key2, value2) =>

              (key1, (value1, value2))

          }

      }

    }

    result.collect().foreach(println)

广播：left join

    //广播rdd2

    val bd: Broadcast[Array[(String, Int)]] = sc.broadcast(rdd2.collect())

    val result: RDD[(String, (Int, Option[Int]))] = rdd1.flatMap {

      case (key1, value1) =>

        val arr = bd.value

        val keys = arr.map(_._1)

        if (keys.contains(key1)) {

          bd.value.filter(key1 == _._1).map {

            case (key2, value2) =>

              (key1, (value1, Some(value2)))

          }

        } else {

          Array(key1 -> (value1, None))

        }

    }

    result.collect.foreach(println)

不适用场景

由于Spark的广播变量是在每个Executor中保存一个副本，如果两个RDD数据量都比较大，那么如果将一个数据量比较大的 RDD做成广播变量，那么很有可能会造成内存溢出。

Spark(八)【利用广播小表实现join避免Shuffle】的更多相关文章

Spark(八)【广播变量和累加器】
目录一. 广播变量使用二. 累加器使用使用场景自定义累加器在spark程序中,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的 ...
【Spark调优】小表join大表数据倾斜解决方案
[使用场景] 对RDD使用join类操作,或者是在Spark SQL中使用join语句时,而且join操作中的一个RDD或表的数据量比较小(例如几百MB或者1~2GB),比较适用此方案. [解决方案] ...
【Spark调优】大表join大表，少数key导致数据倾斜解决方案
[使用场景] 两个RDD进行join的时候,如果数据量都比较大,那么此时可以sample看下两个RDD中的key分布情况.如果出现数据倾斜,是因为其中某一个RDD中的少数几个key的数据量过大,而另一 ...
SQL Join连接大小表在前在后的重要性（小表在前提高执行效率）
引用地址:https://blog.csdn.net/qq_30349961/article/details/82662550 http://blog.sina.com.cn/s/blog_6ff05 ...
Hive中小表与大表关联(join)的性能分析【转】
Hive中小表与大表关联(join)的性能分析 [转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html] 经常看到一些Hive优化的建议中说当 ...
并行HASH JOIN小表广播问题
SQL语句: SELECT /*+parallel(t1 16)*/ T1.DATA_DATE, T1.ACCT_NO, T1.ACCT_ORD, T1.ACCT_NO_PK, T1.ACCT_BAL ...
OLAP 大表和小表并行hash join
一个表50MB 一个表10GB 50M表做驱动表,放在PGA里这时候慢在对对 10g 的全表扫描对10个G扫描块需要开并行我有这样一个算法一个进程读 50mb 8进程来扫描 10gb ...
大数据开发实战：Hive优化实战2-大表join小表优化
4.大表join小表优化和join相关的优化主要分为mapjoin可以解决的优化(即大表join小表)和mapjoin无法解决的优化(即大表join大表),前者相对容易解决,后者较难,比较麻烦. 首 ...
Mysql优化原则_小表驱动大表IN和EXISTS的合理利用
//假设一个for循环 ; $i < ; $i++) { ; $i < ; $j++) { } } ; $i < ; $i++) { ; $i < ; $j++) { } } ...

随机推荐

js 在浏览器中的event loop事件队列
目录前言认识一个栈两个队列执行过程异步任务怎么分配简单例子难一点的例子前言以下内容是js在浏览器中的事件队列执行,与在nodejs中有所区别,请注意. 都说js是单线程的,不过它本身其 ...
oracle 定时任务增、删、改、查
增: 创建一个计划任务 begin sys.dbms_job.submit(job=>:job, what=>'要定时执行的存储过程名:',--例如:包名.存储过程名; 记得写分号 ne ...
js点击事件登录
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
C++ 函数模板和函数重载同时出现如何调用
C++ 函数模板和函数重载同时出现如何调用重点函数模板不允许自动转换,普通函数可以进行自动类型转换函数模板可以像普通函数一样被重载 C++编译器优先考虑调用普通函数如果函数模板可以产生一个更好 ...
msfsploit框架的使用——ms17_010漏洞的利用
开门见山,首先输入msfconsole打开msf控制台全球最牛逼的渗透测试框架就是长这个样子(每次打开时,显示的图案都不一样) 然后搜索ms17_010的相关模块,得到了六条结果,我们需要用的是编号 ...
谷粒 | 10 | 阿里云OSS存储对象服务
阿里云OSS对象存储服务准备工作 1.在service模块新建子模块service_oss 2.引入pom.xml文件中引入oss服务依赖 <dependencies> <!--a ...
PTA 7-1 还原二叉树 (25分)
PTA 7-1 还原二叉树 (25分) 给定一棵二叉树的先序遍历序列和中序遍历序列,要求计算该二叉树的高度. 输入格式: 输入首先给出正整数N(≤50),为树中结点总数.下面两行先后给出先序和中序遍历 ...
maven中的distributionManagement的作用
mvn install 会将项目生成的构件安装到本地Maven仓库,mvn deploy 用来将项目生成的构件分发到远程Maven仓库. 本地Maven仓库的构件只能供当前用户使用,在分发到远程Ma ...
Spring IOC&DI 控制反转和依赖注入
控制反转(Inversion of Control,缩写为IOC),它是把你设计好的对象交给spring控制,而不再需要你去手动 new Object(); 网上对于IOC的解释很多,对程序员而言,大 ...
python实现模板匹配
目录: (一)原理 (二)代码实现和几种常见的模板匹配算法正文: (一)原理在待检测图像上,从左到右,从上向下计算模板图像与重叠子图像的匹配度,匹配程度越大,两者相同的可能性越大. 作用有局限性, ...