Spark技术内幕: Shuffle详解（二）

本文主要关注ShuffledRDD的Shuffle Read是如何从其他的node上读取数据的。

上文讲到了获取如何获取的策略都在org.apache.spark.storage.BlockFetcherIterator.BasicBlockFetcherIterator#splitLocalRemoteBlocks中。可以见注释。

    protected def splitLocalRemoteBlocks(): ArrayBuffer[FetchRequest] = {

      // Make remote requests at most maxBytesInFlight / 5 in length; the reason to keep them

      // smaller than maxBytesInFlight is to allow multiple, parallel fetches from up to 5

      // nodes, rather than blocking on reading output from one node.

      // 为了快速的得到数据，每次都会启动5个线程去最多5个node上取数据；

      // 每次请求的数据不会超过spark.reducer.maxMbInFlight（默认值为48MB） / 5。

      // 这样做的原因有几个：

      // 1. 避免占用目标机器的过多带宽，在千兆网卡为主流的今天，带宽还是比较重要的。

      //    如果一个连接将要占用48M的带宽，这个Network IO可能会成为瓶颈。

      // 2. 请求数据可以平行化，这样请求数据的时间可以大大减少。请求数据的总时间就是那个请求最长的。

      //    如果不是并行请求，那么总时间将是所有的请求时间之和。

      // 而设置spark.reducer.maxMbInFlight，也是为了不要占用过多的内存

      val targetRequestSize = math.max(maxBytesInFlight / 5, 1L)

      logInfo("maxBytesInFlight: " + maxBytesInFlight + ", targetRequestSize: " + targetRequestSize)

      // Split local and remote blocks. Remote blocks are further split into FetchRequests of size

      // at most maxBytesInFlight in order to limit the amount of data in flight.

      val remoteRequests = new ArrayBuffer[FetchRequest]

      var totalBlocks = 0

      for ((address, blockInfos) <- blocksByAddress) { //  address实际上是executor_id

        totalBlocks += blockInfos.size

        if (address == blockManagerId) { //数据在本地，那么直接走local read

          // Filter out zero-sized blocks

          localBlocksToFetch ++= blockInfos.filter(_._2 != 0).map(_._1)

          _numBlocksToFetch += localBlocksToFetch.size

        } else {

          val iterator = blockInfos.iterator

          var curRequestSize = 0L

          var curBlocks = new ArrayBuffer[(BlockId, Long)]

          while (iterator.hasNext) {

          // blockId 是org.apache.spark.storage.ShuffleBlockId，

          // 格式："shuffle_" + shuffleId + "_" + mapId + "_" + reduceId

            val (blockId, size) = iterator.next()

            // Skip empty blocks

            if (size > 0) { //过滤掉为大小为0的文件

              curBlocks += ((blockId, size))

              remoteBlocksToFetch += blockId

              _numBlocksToFetch += 1

              curRequestSize += size

            } else if (size < 0) {

              throw new BlockException(blockId, "Negative block size " + size)

            }

            if (curRequestSize >= targetRequestSize) { // 避免一次请求的数据量过大

              // Add this FetchRequest

              remoteRequests += new FetchRequest(address, curBlocks)

              curBlocks = new ArrayBuffer[(BlockId, Long)]

              logDebug(s"Creating fetch request of $curRequestSize at $address")

              curRequestSize = 0

            }

          }

          // Add in the final request

          if (!curBlocks.isEmpty) { // 将剩余的请求放到最后一个request中。

            remoteRequests += new FetchRequest(address, curBlocks)

          }

        }

      }

      logInfo("Getting " + _numBlocksToFetch + " non-empty blocks out of " +

        totalBlocks + " blocks")

      remoteRequests

    }

Spark技术内幕: Shuffle详解（二）的更多相关文章

Spark技术内幕: Shuffle详解（一）
通过上面一系列文章,我们知道在集群启动时,在Standalone模式下,Worker会向Master注册,使得Master可以感知进而管理整个集群:Master通过借助ZK,可以简单的实现HA:而应用 ...
Spark技术内幕: Shuffle详解（三）
前两篇文章写了Shuffle Read的一些实现细节.但是要想彻底理清楚这里边的实现逻辑,还是需要更多篇幅的:本篇开始,将按照Job的执行顺序,来讲解Shuffle.即,结果数据(ShuffleMap ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
Spark技术内幕：Stage划分及提交源码分析
http://blog.csdn.net/anzhsoft/article/details/39859463 当触发一个RDD的action后,以count为例,调用关系如下: org.apache. ...
前端技术之_CSS详解第一天
前端技术之_CSS详解第一天一html部分略.... 二.列表列表有3种 2.1 无序列表无序列表,用来表示一个列表的语义,并且每个项目和每个项目之间,是不分先后的. ul就是英语unorde ...
Spark技术内幕: Task向Executor提交的源码解析
在上文<Spark技术内幕:Stage划分及提交源码分析>中,我们分析了Stage的生成和提交.但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑, ...
前端技术之_CSS详解第三天
前端技术之_CSS详解第三天二.权重问题深入 2.1 同一个标签,携带了多个类名,有冲突: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 ...
前端技术之_CSS详解第四天
前端技术之_CSS详解第四天一.第三天的小总结盒模型box model,什么是盒子? 所有的标签都是盒子.无论是div.span.a都是盒子.图片.表单元素一律看做文本. 盒模型有哪些组成: wi ...
前端技术之_CSS详解第五天
前端技术之_CSS详解第五天一.行高和字号 1.1 行高 CSS中,所有的行,都有行高.盒模型的padding,绝对不是直接作用在文字上的,而是作用在“行”上的. <!DOCTYPE html ...

随机推荐

[HNOI2012]射箭
Description 沫沫最近在玩一个二维的射箭游戏,如下图 1 所示,这个游戏中的 x 轴在地面,第一象限中有一些竖直线段作为靶子,任意两个靶子都没有公共部分,也不会接触坐标轴.沫沫控制一个位于( ...
[SHOI2014]概率充电器
Description 著名的电子产品品牌 SHOI 刚刚发布了引领世界潮流的下一代电子产品——概率充电器: “采用全新纳米级加工技术,实现元件与导线能否通电完全由真随机数决定!SHOI 概率充电器, ...
k-d tree模板练习
1. [BZOJ]1941: [Sdoi2010]Hide and Seek 题目大意:给出n个二维平面上的点,一个点的权值是它到其他点的最长距离减最短距离,距离为曼哈顿距离,求最小权值.(n< ...
【USACO】干草金字塔
题目描述贝西要用干草包堆出一座金字塔.干草包会从传送带上陆续运来,依次出现 N 包,每包干草可以看做是一个二维平面上的一个长方形,第 i 包干草的宽度是 W i ,长度统一为 1. 金字塔的修建有 ...
NOIP2014-9-6模拟赛
工资 (money/money.in/money.out) 时限1000ms 内存256MB 聪哥在暑假参加了打零工的活动,这个活动分为n个工作日,每个工作日的工资为Vi.有m个结算工钱的时间,聪哥可 ...
linux内核中的链表
1.内核中的链表 linux内核链表与众不同,他不是把将数据结构塞入链表,而是将链表节点塞入数据,在2.1内核中引入了官方链表,从此内核中所有的链表使用都采用此链表,千万不要在重复造车轮子了!链表实现 ...
2015 多校联赛 ——HDU5389（dp）
Sample Input 4 3 9 1 1 2 6 3 9 1 2 3 3 5 2 3 1 1 1 1 1 9 9 9 1 2 3 4 5 6 7 8 9 Sample Output 1 0 1 ...
UESTC 618 无平方因子数 ( 莫比乌斯)
UESTC 618 题意:求1到n中无平方因子数的个数 Sample Input 3 1 10 30 Sample Output 1 7 19 思路:与前面的BZOJ 2440相似 #inc ...
zookeeper快速入门
一.zookeeper简介 zookeeper 是apache旗下的hadoop子项目,它一个开源的,分布式的服务协调器.同样通过zookeeper可以实现服务间的同步与配置维护.通常情况下,在分布式 ...
文本分类学习（五）机器学习SVM的前奏-特征提取（卡方检验续集）
前言: 上一篇比较详细的介绍了卡方检验和卡方分布.这篇我们就实际操刀,找到一些训练集,正所谓纸上得来终觉浅,绝知此事要躬行.然而我在躬行的时候,发现了卡方检验对于文本分类来说应该把公式再变形一般,那样 ...

Spark技术内幕: Shuffle详解（二）

Spark技术内幕: Shuffle详解（二）的更多相关文章

随机推荐

热门专题