Spark map-side-join 关联优化

在spark中要进行join操作，如果在shuffle的时候进行join效率较低。如果满足所需要join的表中有一张表较小，那么可以考虑在map端进行join操作。

转载：http://blog.csdn.net/lsshlsw/article/details/50834858

将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为 reduce-side-join。

如果其中有张表较小的话，我们则可以自己实现在 map 端实现数据关联，跳过大量数据进行 shuffle 的过程，运行时间得到大量缩短，根据不同数据可能会有几倍到数十倍的性能提升。

下文将会以一个 demo 进行说明。

何时使用

在海量数据中匹配少量特定数据

原理

以前写过一篇关于spark-sql中利用broadcast join进行优化的文章，原理与那篇文章相同，这里重新画了图。

http://blog.csdn.net/lsshlsw/article/details/48694893

reduce-side-join 的缺陷在于会将key相同的数据发送到同一个partition中进行运算，大数据集的传输需要长时间的IO，同时任务并发度收到限制，还可能造成数据倾斜。

reduce-side-join 运行图如下

map-side-join 运行图如下

代码说明

数据1（个别人口信息）:

身份证 姓名 ...

   lsw

   yyy

数据2（全国学生信息）:

身份证 学校名称 学号 ...

   s1

   s2

   s3

   s2

期望得到的数据 :

身份证 姓名 学校名称

 lsw s1

将少量的数据转化为Map进行广播，广播会将此 Map 发送到每个节点中，如果不进行广播，每个task执行时都会去获取该Map数据，造成了性能浪费。

val people_info = sc.parallelize(Array(("","lsw"),("","yyy"))).collectAsMap()

val people_bc = sc.broadcast(people_info)

对大数据进行遍历，使用mapPartition而不是map，因为mapPartition是在每个partition中进行操作，因此可以减少遍历时新建broadCastMap.value对象的空间消耗，同时匹配不到的数据也不会返回（）。

val res = student_all.mapPartitions(iter =>{

    val stuMap = people_bc.value

    val arrayBuffer = ArrayBuffer[(String,String,String)]()

    iter.foreach{case (idCard,school,sno) =>{

        if(stuMap.contains(idCard)){

        arrayBuffer.+= ((idCard, stuMap.getOrElse(idCard,""),school))

    }

    }}

    arrayBuffer.iterator

})

也可以使用 for 的守卫机制来实现上述代码

val res1 = student_all.mapPartitions(iter => {

    val stuMap = people_bc.value

    for{

        (idCard, school, sno) <- iter

        if(stuMap.contains(idCard))

        } yield (idCard, stuMap.getOrElse(idCard,""),school)

})

完整代码

import org.apache.spark.{SparkContext, SparkConf}

import scala.collection.mutable.ArrayBuffer

object joinTest extends App{

  val conf = new SparkConf().setMaster("local[2]").setAppName("test")

  val sc = new SparkContext(conf)

  /**

   * map-side-join

   * 取出小表中出现的用户与大表关联后取出所需要的信息

   * */

  //部分人信息(身份证,姓名)

  val people_info = sc.parallelize(Array(("","lsw"),("","yyy"))).collectAsMap()

  //全国的学生详细信息(身份证,学校名称,学号...)

  val student_all = sc.parallelize(Array(("","s1",""),

                                              ("","s2",""),

                                              ("","s3",""),

                                              ("","s2","")))

  //将需要关联的小表进行关联

  val people_bc = sc.broadcast(people_info)

  /**

   * 使用mapPartition而不是用map，减少创建broadCastMap.value的空间消耗

   * 同时匹配不到的数据也不需要返回（）

   * */

  val res = student_all.mapPartitions(iter =>{

    val stuMap = people_bc.value

    val arrayBuffer = ArrayBuffer[(String,String,String)]()

    iter.foreach{case (idCard,school,sno) =>{

      if(stuMap.contains(idCard)){

        arrayBuffer.+= ((idCard, stuMap.getOrElse(idCard,""),school))

      }

    }}

    arrayBuffer.iterator

  })

  /**

   * 使用另一种方式实现

   * 使用for的守卫

   * */

  val res1 = student_all.mapPartitions(iter => {

    val stuMap = people_bc.value

    for{

      (idCard, school, sno) <- iter

      if(stuMap.contains(idCard))

    } yield (idCard, stuMap.getOrElse(idCard,""),school)

  })

  res.foreach(println)