Spark Sort-Based Shuffle具体实现内幕和源码详解

为什么讲解Sorted-Based shuffle？2方面的原因：
一，可能有些朋友看到Sorted-Based Shuffle的时候，会有一个误解，认为Spark基于Sorted-Based Shuffle 它产出的结果是有序的。
二，Sorted-Based Shuffle要排序，涉及到一个排序算法。

Sorted-Based Shuffle 的核心是借助于 ExternalSorter 把每个 ShuffleMapTask 的输出，排序到一个文件中 (FileSegmentGroup)，为了区分下一个阶段 Reducer Task 不同的内容，它还需要有一个索引文件 (Index) 来告诉下游 Stage 的并行任务，哪一部份是属于你的。

Shuffle Map Task 在ExternalSorter 溢出到磁盘的时候，产生一组 File （File Group是hashShuffle中的概念，理解为一个file文件池，这里为区分，使用File的概念，FileSegment根据PartionID排序）和一个索引文件，File 里的 FileSegement 会进行排序，在 Reducer 端有4个Reducer Task，下游的 Task 可以很容易跟据索引 (index) 定位到这个 Fie 中的哪部份 FileSegement 是属于下游的，它相当于一个指针，下游的 Task 要向 Driver 去碓定文件在那里，然后到了这个 File 文件所在的地方，实际上会跟 BlockManager 进行沟通，BlockManager 首先会读一个 Index 文件，根据它的命名则进行解析，比如说下一个阶段的第一个 Task，一般就是抓取第一个 Segment，这是一个指针定位的过程。
再次强调 Sort-Based Shuffle 最大的意义是减少临时文件的输出数量，且只会产生两个文件：一个是包含不同内容划分成不同 FileSegment 构成的单一文件 File，另外一个是索引文件 Index。
一件很重要的事情：在Sorted-Shuffle中会排序吗？从测试的结果来看，结果一般不排序。（例如我们可以在spark2.0中做一个wordcount测试，结果是不排序的）
Sort-Based Shuffle Mapper端的 Sort and Spill 的过程 (ApependOnlyMap时不进行排序，Spill 到磁盘的时候再进行排序的)

现在我们从源码的角度去看看到底Sorted-Based Shuffle这个排序实际上是在干什么的。

SparkEnv.scala：默认情况是sort类型，全称org.apache.spark.shuffle.sort.SortShuffleManager

// Let the user specify short names for shuffle managers

val shortShuffleMgrNames = Map(

  "sort" -> classOf[org.apache.spark.shuffle.sort.SortShuffleManager].getName,

  "tungsten-sort" -> classOf[org.apache.spark.shuffle.sort.SortShuffleManager].getName)

val shuffleMgrName = conf.get("spark.shuffle.manager", "sort")

val shuffleMgrClass = shortShuffleMgrNames.getOrElse(shuffleMgrName.toLowerCase, shuffleMgrName)

val shuffleManager = instantiateClass[ShuffleManager](shuffleMgrClass)

进入org.apache.spark.shuffle.sort.SortShuffleManager，我们怎么去看这个源代码，再看一下上面的架构图

SortShuffleManager中没找到这个ExternalSorter，那我们从ShuffleMapTask中去看怎么写数据的。

看一下ShuffleMapTask中runTask的writer

override def runTask(context: TaskContext): MapStatus = {

  // Deserialize the RDD using the broadcast variable.

  val threadMXBean = ManagementFactory.getThreadMXBean

  val deserializeStartTime = System.currentTimeMillis()

  val deserializeStartCpuTime = if (threadMXBean.isCurrentThreadCpuTimeSupported) {

    threadMXBean.getCurrentThreadCpuTime

  } else 0L

  val ser = SparkEnv.get.closureSerializer.newInstance()

  val (rdd, dep) = ser.deserialize[(RDD[_], ShuffleDependency[_, _, _])](

    ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)

  _executorDeserializeTime = System.currentTimeMillis() - deserializeStartTime

  _executorDeserializeCpuTime = if (threadMXBean.isCurrentThreadCpuTimeSupported) {

    threadMXBean.getCurrentThreadCpuTime - deserializeStartCpuTime

  } else 0L

  var writer: ShuffleWriter[Any, Any] = null

  try {

    val manager = SparkEnv.get.shuffleManager

    writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)

    writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])

    writer.stop(success = true).get

  } catch {

    case e: Exception =>

      try {

        if (writer != null) {

          writer.stop(success = false)

        }

      } catch {

        case e: Exception =>

          log.debug("Could not stop writer", e)

      }

      throw e

  }

}

manager = SparkEnv.get.shuffleManager是从SparkEnv中通过反射的获取的shuffleManager，就是SortShuffleManager。那 manager.getWriter是SortShuffleManager的getWriter

/** Get a writer for a given partition. Called on executors by map tasks. */

override def getWriter[K, V](

    handle: ShuffleHandle,

    mapId: Int,

    context: TaskContext): ShuffleWriter[K, V] = {

  numMapsForShuffle.putIfAbsent(

    handle.shuffleId, handle.asInstanceOf[BaseShuffleHandle[_, _, _]].numMaps)

  val env = SparkEnv.get

  handle match {

    case unsafeShuffleHandle: SerializedShuffleHandle[K @unchecked, V @unchecked] =>

      new UnsafeShuffleWriter(

        env.blockManager,

        shuffleBlockResolver.asInstanceOf[IndexShuffleBlockResolver],

        context.taskMemoryManager(),

        unsafeShuffleHandle,

        mapId,

        context,

        env.conf)

    case bypassMergeSortHandle: BypassMergeSortShuffleHandle[K @unchecked, V @unchecked] =>

      new BypassMergeSortShuffleWriter(

        env.blockManager,

        shuffleBlockResolver.asInstanceOf[IndexShuffleBlockResolver],

        bypassMergeSortHandle,

        mapId,

        context,

        env.conf)

    case other: BaseShuffleHandle[K @unchecked, V @unchecked, _] =>

      new SortShuffleWriter(shuffleBlockResolver, other, mapId, context)

  }

}

SortShuffleManager getWriter Handle提供的三种方式

unsafeShuffleHandle ： tungsten深度优化的方式
bypassMergeSortHandle：Sorted-Shuffle在一定程度上可以退化为hashShuffle的方式
BaseShuffleHandle：是SortShuffleWriter

再回到之前ShuffleMapTask中，获取shufflemanager getWriter之后，要write写数据。

var writer: ShuffleWriter[Any, Any] = null

try {

  val manager = SparkEnv.get.shuffleManager

  writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)

  writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])

  writer.stop(success = true).get

那我们看SortShuffleWriter的write方法（idea按ctrl+F12），代码是非常清晰，简洁的。经过千辛万苦，一步一步追踪，我们终于看到了

ExternalSorter

/** Write a bunch of records to this task's output */

override def write(records: Iterator[Product2[K, V]]): Unit = {

  sorter = if (dep.mapSideCombine) {

    require(dep.aggregator.isDefined, "Map-side combine without Aggregator specified!")

    new ExternalSorter[K, V, C](

      context, dep.aggregator, Some(dep.partitioner), dep.keyOrdering, dep.serializer)

  } else {

    // In this case we pass neither an aggregator nor an ordering to the sorter, because we don't

    // care whether the keys get sorted in each partition; that will be done on the reduce side

    // if the operation being run is sortByKey.

    new ExternalSorter[K, V, V](

      context, aggregator = None, Some(dep.partitioner), ordering = None, dep.serializer)

  }

  sorter.insertAll(records)

  // Don't bother including the time to open the merged output file in the shuffle write time,

  // because it just opens a single file, so is typically too fast to measure accurately

  // (see SPARK-3570).

  val output = shuffleBlockResolver.getDataFile(dep.shuffleId, mapId)

  val tmp = Utils.tempFileWith(output)

  try {

    val blockId = ShuffleBlockId(dep.shuffleId, mapId, IndexShuffleBlockResolver.NOOP_REDUCE_ID)

    val partitionLengths = sorter.writePartitionedFile(blockId, tmp)

    shuffleBlockResolver.writeIndexFileAndCommit(dep.shuffleId, mapId, partitionLengths, tmp)

    mapStatus = MapStatus(blockManager.shuffleServerId, partitionLengths)

  } finally {

    if (tmp.exists() && !tmp.delete()) {

      logError(s"Error while deleting temp file ${tmp.getAbsolutePath}")

    }

  }

}

ExternalSorter.scala中有2个很重要的数据结构：

// Data structures to store in-memory objects before we spill. Depending on whether we have an

// Aggregator set, we either put objects into an AppendOnlyMap where we combine them, or we

// store them in an array buffer.

@volatile private var map = new PartitionedAppendOnlyMap[K, C]

@volatile private var buffer = new PartitionedPairBuffer[K, C]

1，在map端进行combine：PartitionedAppendOnlyMap 是map类型的数据结构，map是key-value ，在本地进行聚合，在本地key值不变，Value不断进行更新；PartitionedAppendOnlyMap 底层还是一个数组，基于数组实现map的原因是更节省空间，效率更高。那么直接基于数组怎么实现map：把数组的标记 0 1 2 3 4 .。。。把偶数设置为map的key值，把奇数设置为map的value值。
2，在map端没有combine：使用PartitionedPairBuffer

看一下insertAll方法：

def insertAll(records: Iterator[Product2[K, V]]): Unit = {

  // TODO: stop combining if we find that the reduction factor isn't high

  val shouldCombine = aggregator.isDefined

  if (shouldCombine) {

    // Combine values in-memory first using our AppendOnlyMap

    val mergeValue = aggregator.get.mergeValue

    val createCombiner = aggregator.get.createCombiner

    var kv: Product2[K, V] = null

    val update = (hadValue: Boolean, oldValue: C) => {

      if (hadValue) mergeValue(oldValue, kv._2) else createCombiner(kv._2)

    }

    while (records.hasNext) {

      addElementsRead()

      kv = records.next()

      map.changeValue((getPartition(kv._1), kv._1), update)

      maybeSpillCollection(usingMap = true)

    }

  } else {

    // Stick values into our buffer

    while (records.hasNext) {

      addElementsRead()

      val kv = records.next()

      buffer.insert(getPartition(kv._1), kv._1, kv._2.asInstanceOf[C])

      maybeSpillCollection(usingMap = false)

    }

  }

}

首先判断是否聚合shouldCombine：
1，如果聚合，map.changeValue此时key不变，在历史value基础上进行combine。
2，没有聚合，直接在buffer数据结构中插入一条记录。
注意：这个时候没有排序。

继续回到SortShuffleWriter的write方法：

根据dep.shuffleId, mapId获取输出文件output
写数据根据dep.shuffleId, mapId, partitionLengths, tmp，tmp是中间临时文件写入文件和更新索引。
task运行结束以后返回的mapStatus数据结构，告诉数据放在哪里。

val output = shuffleBlockResolver.getDataFile(dep.shuffleId, mapId)

val tmp = Utils.tempFileWith(output)

try {

  val blockId = ShuffleBlockId(dep.shuffleId, mapId, IndexShuffleBlockResolver.NOOP_REDUCE_ID)

  val partitionLengths = sorter.writePartitionedFile(blockId, tmp)

  shuffleBlockResolver.writeIndexFileAndCommit(dep.shuffleId, mapId, partitionLengths, tmp)

  mapStatus = MapStatus(blockManager.shuffleServerId, partitionLengths)

我们看一下writePartitionedFile，分别实现了spill和不spill怎么做。

def writePartitionedFile(

    blockId: BlockId,

    outputFile: File): Array[Long] = {

  // Track location of each range in the output file

  val lengths = new Array[Long](numPartitions)

  val writer = blockManager.getDiskWriter(blockId, outputFile, serInstance, fileBufferSize,

    context.taskMetrics().shuffleWriteMetrics)

  if (spills.isEmpty) {

    // Case where we only have in-memory data

    val collection = if (aggregator.isDefined) map else buffer

    val it = collection.destructiveSortedWritablePartitionedIterator(comparator)

    while (it.hasNext) {

      val partitionId = it.nextPartition()

      while (it.hasNext && it.nextPartition() == partitionId) {

        it.writeNext(writer)

      }

      val segment = writer.commitAndGet()

      lengths(partitionId) = segment.length

    }

  } else {

    // We must perform merge-sort; get an iterator by partition and write everything directly.

    for ((id, elements) <- this.partitionedIterator) {

      if (elements.hasNext) {

        for (elem <- elements) {

          writer.write(elem._1, elem._2)

        }

        val segment = writer.commitAndGet()

        lengths(id) = segment.length

      }

    }

  }

  writer.close()

  context.taskMetrics().incMemoryBytesSpilled(memoryBytesSpilled)

  context.taskMetrics().incDiskBytesSpilled(diskBytesSpilled)

  context.taskMetrics().incPeakExecutionMemory(peakMemoryUsedBytes)

  lengths

}

大家看一下里面有没有排序的事情？可能没有看见，里面有一句很关键的代码：val it = collection.destructiveSortedWritablePartitionedIterator(comparator)，生成一个it WritablePartitionedIterator写数据

那我们看一下WritablePartitionedPairCollection

private[spark] trait WritablePartitionedPairCollection[K, V] {

  /**

   * Insert a key-value pair with a partition into the collection

   */

  def insert(partition: Int, key: K, value: V): Unit

  /**

   * Iterate through the data in order of partition ID and then the given comparator. This may

   * destroy the underlying collection.

   */

  def partitionedDestructiveSortedIterator(keyComparator: Option[Comparator[K]])

    : Iterator[((Int, K), V)]

这个地方看到了排序：以partition ID进行排序，实现快速的写，方便的读操作；关键的一点对KEY进行操作。
看一下继承结构PartitionedAppendOnlyMap

/**

 * Implementation of WritablePartitionedPairCollection that wraps a map in which the keys are tuples

 * of (partition ID, K)

 */

private[spark] class PartitionedAppendOnlyMap[K, V]

  extends SizeTrackingAppendOnlyMap[(Int, K), V] with WritablePartitionedPairCollection[K, V] {

  def partitionedDestructiveSortedIterator(keyComparator: Option[Comparator[K]])

    : Iterator[((Int, K), V)] = {

    val comparator = keyComparator.map(partitionKeyComparator).getOrElse(partitionComparator)

    destructiveSortedIterator(comparator)

  }

  def insert(partition: Int, key: K, value: V): Unit = {

    update((partition, key), value)

  }

}

点击destructiveSortedIterator

/**

 * Return an iterator of the map in sorted order. This provides a way to sort the map without

 * using additional memory, at the expense of destroying the validity of the map.

 */

def destructiveSortedIterator(keyComparator: Comparator[K]): Iterator[(K, V)] = {

  destroyed = true

  // Pack KV pairs into the front of the underlying array

  var keyIndex, newIndex =

  while (keyIndex < capacity) {

    if (data( * keyIndex) != null) {

      data( * newIndex) = data( * keyIndex)

      data( * newIndex + ) = data( * keyIndex + )

      newIndex +=

    }

    keyIndex +=

  }

  assert(curSize == newIndex + (if (haveNullValue)  else ))

  new Sorter(new KVArraySortDataFormat[K, AnyRef]).sort(data, , newIndex, keyComparator)

  new Iterator[(K, V)] {

    var i =

    var nullValueReady = haveNullValue

    def hasNext: Boolean = (i < newIndex || nullValueReady)

    def next(): (K, V) = {

      if (nullValueReady) {

        nullValueReady = false

        (null.asInstanceOf[K], nullValue)

      } else {

        val item = (data( * i).asInstanceOf[K], data( * i + ).asInstanceOf[V])

        i +=

        item

      }

    }

  }

}

里面的关键的地方有一个new Sorter

class Sorter[K, Buffer](private val s: SortDataFormat[K, Buffer]) {

  private val timSort = new TimSort(s)

  /**

   * Sorts the input buffer within range [lo, hi).

   */

  def sort(a: Buffer, lo: Int, hi: Int, c: Comparator[_ >: K]): Unit = {

    timSort.sort(a, lo, hi, c)

  }

}

sorter里面使用的是timSort算法

Spark Sort-Based Shuffle具体实现内幕和源码详解的更多相关文章

[Spark内核] 第40课：CacheManager彻底解密：CacheManager运行原理流程图和源码详解
本课主题 CacheManager 运行原理图 CacheManager 源码解析 CacheManager 运行原理图 [下图是CacheManager的运行原理图] 首先 RDD 是通过 iter ...
Spark Sort Based Shuffle内存分析
分布式系统里的Shuffle 阶段往往是非常复杂的,而且分支条件也多,我只能按着我关注的线去描述.肯定会有不少谬误之处,我会根据自己理解的深入,不断更新这篇文章. 前言借用和董神的一段对话说下背景: ...
dom4j的测试例子和源码详解(重点对比和DOM、SAX的区别)
目录简介 DOM.SAX.JAXP和DOM4J xerces解释器 SAX DOM JAXP DOM解析器获取SAX解析器 DOM4j 项目环境工程环境创建项目引入依赖使用例子--生成xm ...
[Qt Creator 快速入门] 第2章 Qt程序编译和源码详解
一.编写 Hello World Gui程序 Hello World程序就是让应用程序显示"Hello World"字符串.这是最简单的应用,但却包含了一个应用程序的基本要素,所以 ...
Arouter核心思路和源码详解
前言阅读本文之前,建议读者: 对Arouter的使用有一定的了解. 对Apt技术有所了解. Arouter是一款Alibaba出品的优秀的路由框架,本文不对其进行全面的分析,只对其最重要的功能进行源 ...
go map数据结构和源码详解
目录 1. 前言 2. go map的数据结构 2.1 核心结体体 2.2 数据结构图 3. go map的常用操作 3.1 创建 3.2 插入或更新 3.3 删除 3.4 查找 3.5 range迭 ...
jdbc-mysql测试例子和源码详解
目录简介什么是JDBC 几个重要的类使用中的注意事项使用例子需求工程环境主要步骤创建表创建项目引入依赖编写jdbc.prperties 获得Connection对象使用Conn ...
cglib测试例子和源码详解
目录简介为什么会有动态代理? 常见的动态代理有哪些? 什么是cglib 使用例子需求工程环境主要步骤创建项目引入依赖编写被代理类编写MethodInterceptor接口实现类编写 ...
DBCP2的使用例子和源码详解（不包括JNDI和JTA支持的使用）
目录简介使用例子需求工程环境主要步骤创建项目引入依赖编写jdbc.prperties 获取连接池和获取连接编写测试类配置文件详解数据库连接参数连接池数据基本参数连接检查参数 ...

随机推荐

IOS设计模式第八篇之键值观察模式
版权声明:原创作品,谢绝转载!否则将追究法律责任. 键值观察模式: 在KVO,一个对象可以要求被通知当他的某个特殊的属性被改变了.自己或者另一个对象.如果你感兴趣你可以阅读更多的信息参考: Apple ...
css3整理--text-shadow
text-shadow语法: text-shadow:[颜色(Color) x轴(X Offset) y轴(Y Offset) 模糊半径(Blur)],[颜色(color) x轴(X Offset) ...
Python tkinter 控件更新信息
下面几个例子关于tkinter界面更新的,简单易懂,分享一下. 例子_1: 代码_1: from tkinter import Tk, Checkbutton, Label from tkinter ...
python函数定义语法总结
见下面代码及注释: def calc(value): sum=0 for m in value: sum=sum+m return sum data=[1,2,3,4,5,6,7,8,9,10] pr ...
题目1091：棋盘游戏(DFS)
题目链接:http://ac.jobdu.com/problem.php?pid=1091 详解链接:https://github.com/zpfbuaa/JobduInCPlusPlus 参考代码: ...
为什么局域网里有ip为10.10.10.1
10.0.0.1 是私有地址,用来给局域网络分配主机地址的. A类地址 (1)A类地址第1字节为网络地址,其它3个字节为主机地址.它的第1个字节的第一位固定为0. (2)A类地址网络号范围:1.0.0 ...
mac设置文件权限问题
在使用mac时,经常我们遇到相关文件不能使用的情况,其实大多数情况都是,文件权限问题. 文件或目录的访问权限分为只读,只写和可执行三种.以文件为例,只读权限表示只允许读其内容,而禁止对其做任何的更改操 ...
jQuery 核心 - noConflict() 方法
1.遇到问题: 当我们写jquery时使用$,发现写的jquery全部失效: 2.发现问题: 排查后发现是noConflict()函数在作怪,因为使用noConflict()函数后,重新定义$名字为j ...
html处理富文本内容，避免XSS工具类
import org.apache.commons.lang3.StringEscapeUtils;import org.jsoup.Jsoup;import org.jsoup.safety.Whi ...
[分布式系统学习] 6.824 LEC2 RPC和线程笔记
6.824的课程通常是在课前让你做一些准备.一般来说是先读一篇论文,然后请你提一个问题,再请你回答一个问题.然后上课,然后布置Lab. 第二课的准备-Crawler 第二课的准备不是论文,是让你实现G ...

Spark Sort-Based Shuffle具体实现内幕和源码详解

ExternalSorter

Spark Sort-Based Shuffle具体实现内幕和源码详解的更多相关文章

随机推荐

热门专题