欢迎转载，转载请注明出处，徽沪一郎。

概要

本文主要讲述在standalone cluster部署模式下，Spark Application在整个运行期间，资源(主要是cpu core和内存)的申请与释放。

构成Standalone cluster部署模式的四大组成部件如下图所示，分别为Master, worker, executor和driver，它们各自运行于独立的JVM进程。

从资源管理的角度来说

Master 掌管整个cluster的资源，主要是指cpu core和memory，但Master自身并不拥有这些资源
Worker 计算资源的实际贡献者，须向Master汇报自身拥有多少cpu core和memory, 在master的指示下负责启动executor
Executor 执行真正计算的苦力，由master来决定该进程拥有的core和memory数值
Driver 资源的实际占用者，Driver会提交一到多个job，每个job在拆分成多个task之后，会分发到各个executor真正的执行

这些内容在standalone cluster模式下的容错性分析中也有所涉及，今天主要讲一下资源在分配之后不同场景下是如何被顺利回收的。

资源上报汇聚过程

standalone cluster下最主要的当然是master，master必须先于worker和driver程序正常启动。

当master顺利启动完毕，可以开始worker的启动工作，worker在启动的时候需要向master发起注册，在注册消息中带有本worker节点的cpu core和内存。

调用顺序如下preStart->registerWithMaster->tryRegisterAllMasters

看一看tryRegisterAllMasters的代码

 def tryRegisterAllMasters() {

    for (masterUrl <- masterUrls) {

      logInfo("Connecting to master " + masterUrl + "...")

      val actor = context.actorSelection(Master.toAkkaUrl(masterUrl))

      actor ! RegisterWorker(workerId, host, port, cores, memory, webUi.boundPort, publicAddress)

    }

  }

我们的疑问是RegisterWorker构造函数所需的参数memory和cores是从哪里获取的呢？

注意一下Worker中的main函数会创建WorkerArguments，

  def main(argStrings: Array[String]) {

    SignalLogger.register(log)

    val args = new WorkerArguments(argStrings)

    val (actorSystem, _) = startSystemAndActor(args.host, args.port, args.webUiPort, args.cores,

      args.memory, args.masters, args.workDir)

    actorSystem.awaitTermination()

  }

memory通过函数inferDefaultMemory获取，而cores通过inferDefaultCores获取。

def inferDefaultCores(): Int = {

    Runtime.getRuntime.availableProcessors()

  }

  def inferDefaultMemory(): Int = {

    val ibmVendor = System.getProperty("java.vendor").contains("IBM")

    var totalMb = 0

    try {

      val bean = ManagementFactory.getOperatingSystemMXBean()

      if (ibmVendor) {

        val beanClass = Class.forName("com.ibm.lang.management.OperatingSystemMXBean")

        val method = beanClass.getDeclaredMethod("getTotalPhysicalMemory")

        totalMb = (method.invoke(bean).asInstanceOf[Long] / 1024 / 1024).toInt

      } else {

        val beanClass = Class.forName("com.sun.management.OperatingSystemMXBean")

        val method = beanClass.getDeclaredMethod("getTotalPhysicalMemorySize")

        totalMb = (method.invoke(bean).asInstanceOf[Long] / 1024 / 1024).toInt

      }

    } catch {

      case e: Exception => {

        totalMb = 2*1024

        System.out.println("Failed to get total physical memory. Using " + totalMb + " MB")

      }

    }

    // Leave out 1 GB for the operating system, but don't return a negative memory size

    math.max(totalMb - 1024, 512)

  }

如果已经在配置文件中为显示指定了每个worker的core和memory，则使用配置文件中的值，具体配置参数为SPARK_WORKER_CORES和SPARK_WORKER_MEMORY

Master在收到RegisterWork消息之后，根据上报的信息为每一个worker创建相应的WorkerInfo.

    case RegisterWorker(id, workerHost, workerPort, cores, memory, workerUiPort, publicAddress) =>

    {

      logInfo("Registering worker %s:%d with %d cores, %s RAM".format(

        workerHost, workerPort, cores, Utils.megabytesToString(memory)))

      if (state == RecoveryState.STANDBY) {

        // ignore, don't send response

      } else if (idToWorker.contains(id)) {

        sender ! RegisterWorkerFailed("Duplicate worker ID")

      } else {

        val worker = new WorkerInfo(id, workerHost, workerPort, cores, memory,

          sender, workerUiPort, publicAddress)

        if (registerWorker(worker)) {

          persistenceEngine.addWorker(worker)

          sender ! RegisteredWorker(masterUrl, masterWebUiUrl)

          schedule()

        } else {

          val workerAddress = worker.actor.path.address

          logWarning("Worker registration failed. Attempted to re-register worker at same " +

            "address: " + workerAddress)

          sender ! RegisterWorkerFailed("Attempted to re-register worker at same address: "

            + workerAddress)

        }

      }

资源分配过程

如果在worker注册上来的时候，已经有Driver Application注册上来，那么就需要将原先处于未分配资源状态的driver application启动相应的executor。

WorkerInfo在schedule函数中会被使用到，schedule函数处理逻辑概述如下

查看目前存活的worker中剩余的内存是否能够满足application每个task的最低需求，如果是则将该worker加入到可分配资源的队列
根据分发策略，如果是决定将工作平摊到每个worker，则每次在一个worker上占用一个core，直到所有可分配资源耗尽或已经满足driver的需求
如果分发策略是分发到尽可能少的worker，则一次占用尽worker上的可分配core，直到driver的core需求得到满足
根据步骤2或3的结果在每个worker上添加相应的executor，处理函数是addExecutor

为了叙述简单，现仅列出平摊到各个worker的分配处理过程

      for (worker > workers if worker.coresFree > 0 && worker.state == WorkerState.ALIVE) {

        for (app <- waitingApps if app.coresLeft > 0) {

          if (canUse(app, worker)) {

            val coresToUse = math.min(worker.coresFree, app.coresLeft)

            if (coresToUse > 0) {

              val exec = app.addExecutor(worker, coresToUse)

              launchExecutor(worker, exec)

              app.state = ApplicationState.RUNNING

            }

          }

        }

      }

launchExecutor主要负责两件事情

记录下新添加的executor使用掉的cpu core和内存数目，记录过程发生在worker.addExecutor
向worker发送LaunchExecutor指令

  def launchExecutor(worker: WorkerInfo, exec: ExecutorInfo) {

    logInfo("Launching executor " + exec.fullId + " on worker " + worker.id)

    worker.addExecutor(exec)

    worker.actor ! LaunchExecutor(masterUrl,

      exec.application.id, exec.id, exec.application.desc, exec.cores, exec.memory)

    exec.application.driver ! ExecutorAdded(

      exec.id, worker.id, worker.hostPort, exec.cores, exec.memory)

  }

worker在收到LaunchExecutor指令后，也会记一笔账，将要使用掉的cpu core和memory从可用资源中减去，然后使用ExecutorRunner来负责生成Executor进程，注意Executor运行于独立的进程。代码如下

case LaunchExecutor(masterUrl, appId, execId, appDesc, cores_, memory_) =>

      if (masterUrl != activeMasterUrl) {

        logWarning("Invalid Master (" + masterUrl + ") attempted to launch executor.")

      } else {

        try {

          logInfo("Asked to launch executor %s/%d for %s".format(appId, execId, appDesc.name))

          val manager = new ExecutorRunner(appId, execId, appDesc, cores_, memory_,

            self, workerId, host,

            appDesc.sparkHome.map(userSparkHome => new File(userSparkHome)).getOrElse(sparkHome),

            workDir, akkaUrl, conf, ExecutorState.RUNNING)

          executors(appId + "/" + execId) = manager

          manager.start()

          coresUsed += cores_

          memoryUsed += memory_

          masterLock.synchronized {

            master ! ExecutorStateChanged(appId, execId, manager.state, None, None)

          }

        } catch {

          case e: Exception => {

            logError("Failed to launch executor %s/%d for %s".format(appId, execId, appDesc.name))

            if (executors.contains(appId + "/" + execId)) {

              executors(appId + "/" + execId).kill()

              executors -= appId + "/" + execId

            }

            masterLock.synchronized {

              master ! ExecutorStateChanged(appId, execId, ExecutorState.FAILED, None, None)

            }

          }

        }

      }

在资源分配过程中需要注意到的是如果有多个Driver Application处于等待状态，资源分配的原则是FIFO，先到先得。

资源回收过程

worker中上报的资源最终被driver application中提交的job task所占用，如果application结束(包括正常和异常退出)，application所占用的资源就应该被顺利回收，即将占用的资源重新归入可分配资源行列。

现在的问题转换成Master和Executor如何知道Driver Application已经退出了呢？

有两种不同的处理方式，一种是先道别后离开，一种是不告而别。现分别阐述。

何为先道别后离开，即driver application显式的通知master和executor，任务已经完成了，我要bye了。应用程序显式的调用SparkContext.stop

  def stop() {

    postApplicationEnd()

    ui.stop()

    // Do this only if not stopped already - best case effort.

    // prevent NPE if stopped more than once.

    val dagSchedulerCopy = dagScheduler

    dagScheduler = null

    if (dagSchedulerCopy != null) {

      metadataCleaner.cancel()

      cleaner.foreach(_.stop())

      dagSchedulerCopy.stop()

      taskScheduler = null

      // TODO: Cache.stop()?

      env.stop()

      SparkEnv.set(null)

      ShuffleMapTask.clearCache()

      ResultTask.clearCache()

      listenerBus.stop()

      eventLogger.foreach(_.stop())

      logInfo("Successfully stopped SparkContext")

    } else {

      logInfo("SparkContext already stopped")

    }

  }

显式调用SparkContext.stop的一个主要功能是会去显式的停止Executor，具体下达StopExecutor指令的代码见于CoarseGrainedSchedulerBackend中的stop函数

  override def stop() {

    stopExecutors()

    try {

      if (driverActor != null) {

        val future = driverActor.ask(StopDriver)(timeout)

        Await.ready(future, timeout)

      }

    } catch {

      case e: Exception =>

        throw new SparkException("Error stopping standalone scheduler's driver actor", e)

    }

  }

那么Master又是如何知道Driver Application退出的呢？这要归功于Akka的通讯机制了，当相互通讯的任意一方异常退出，另一方都会收到DisassociatedEvent, Master也就是在这个消息处理中移除已经停止的Driver Application。

    case DisassociatedEvent(_, address, _) => {

      // The disconnected client could've been either a worker or an app; remove whichever it was

      logInfo(s"$address got disassociated, removing it.")

      addressToWorker.get(address).foreach(removeWorker)

      addressToApp.get(address).foreach(finishApplication)

      if (state == RecoveryState.RECOVERING && canCompleteRecovery) { completeRecovery() }

    }

不告而别的方式下Executor是如何知道自己所服务的application已经顺利完成使命了呢？道理和master的一样，还是通过DisassociatedEvent来感知。详见CoarseGrainedExecutorBackend中的receive函数

  case x: DisassociatedEvent =>

      logError(s"Driver $x disassociated! Shutting down.")

      System.exit(1)

异常情况下的资源回收

由于Master和Worker之间的心跳机制，如果worker异常退出， Master会由心跳机制感知到其消亡，进而将其上报的资源移除。

Executor异常退出时，Worker中的监控线程ExecutorRunner会立即感知，进而上报给Master，Master会回收资源，并重新要求worker启动executor。

Apache Spark源码走读之19 -- standalone cluster模式下资源的申请与释放的更多相关文章

Apache Spark源码走读之15 -- Standalone部署模式下的容错性分析
欢迎转载,转载请注明出处,徽沪一郎. 概要本文就standalone部署方式下的容错性问题做比较细致的分析,主要回答standalone部署方式下的包含哪些主要节点,当某一类节点出现问题时,系统是如 ...
Apache Spark源码走读之7 -- Standalone部署方式分析
欢迎转载,转载请注明出处,徽沪一郎. 楔子在Spark源码走读系列之2中曾经提到Spark能以Standalone的方式来运行cluster,但没有对Application的提交与具体运行流程做详细 ...
Apache Spark源码走读之16 -- spark repl实现详解
欢迎转载,转载请注明出处,徽沪一郎. 概要之所以对spark shell的内部实现产生兴趣全部缘于好奇代码的编译加载过程,scala是需要编译才能执行的语言,但提供的scala repl可以实现代码 ...
Apache Spark源码走读之13 -- hiveql on spark实现详解
欢迎转载,转载请注明出处,徽沪一郎概要在新近发布的spark 1.0中新加了sql的模块,更为引人注意的是对hive中的hiveql也提供了良好的支持,作为一个源码分析控,了解一下spark是如何 ...
Apache Spark源码走读之23 -- Spark MLLib中拟牛顿法L-BFGS的源码实现
欢迎转载,转载请注明出处,徽沪一郎. 概要本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读. 拟牛顿法数学原理代码实现 L-BFGS算法中使 ...
Apache Spark源码走读之21 -- WEB UI和Metrics初始化及数据更新过程分析
欢迎转载,转载请注明出处,徽沪一郎. 概要 WEB UI和Metrics子系统为外部观察监测Spark内部运行情况提供了必要的窗口,本文将简略的过一下其内部代码实现. WEB UI 先上图感受一下sp ...
Apache Spark源码走读之18 -- 使用Intellij idea调试Spark源码
欢迎转载,转载请注明出处,徽沪一郎. 概要上篇博文讲述了如何通过修改源码来查看调用堆栈,尽管也很实用,但每修改一次都需要编译,花费的时间不少,效率不高,而且属于侵入性的修改,不优雅.本篇讲述如何使用 ...
Apache Spark源码走读之6 -- 存储子系统分析
欢迎转载,转载请注明出处,徽沪一郎. 楔子 Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系统的构成,并以数据写入和数 ...
Apache Spark技术实战之8：Standalone部署模式下的临时文件清理
未经本人同意严禁转载,徽沪一郎. 概要在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文件,这些临时目录和文件又是在什么时候被清理,本文将就这些问题做深入细致的解答. 从 ...

随机推荐

解决java.lang.UnsupportedClassVersionError
出现java.lang.UnsupportedClassVersionError 错误的原因,是因为我们使用高版本的JDK编译的Java class文件试图在较低版本的JVM上运行,所报的错误. 版本 ...
C语言给字符数组赋值的方法
typedef struct _tagTESTCHAR { char szTest[30];}TESTCHAR , *PTESTCHAR; int main(int argc, char* argv[ ...
java基础知识回顾之javaIO类总结
java IO体系图 IO流的操作规律总结: 1,明确体系: 数据源:InputStream ,Reader 数据汇:OutputStream,Writer 2,明确数据:因为数据分两种:字节,字符. ...
hdu 1286:找新朋友（数论，欧拉函数）
找新朋友 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submis ...
C/C++知识点
1 cout<<endl;什么意思? 就是回车的意思~ 相当于C语言里面的printf("\n"); 2 cin>> 键盘输入例子:double r=1 ...
【Tyvj1038】忠诚线段树
题目描述老管家是一个聪明能干的人.他为财主工作了整整10年,财主为了让自已账目更加清楚.要求管家每天记k次账,由于管家聪明能干,因而管家总是让财主十分满意.但是由于一些人的挑拨,财主还是对管家产生了 ...
将long型转换为多少MB的方法
Formatter.formatFileSize( this, processInfo.getMemsize()) public class DensityUtil { /** * 根据手机的分辨率从 ...
LR结构图
aac格式解析
AAC格式有以下两种: ADIF:Audio Data Interchange Format 音频数据交换格式.这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开始的解码,即 ...
POJ2125 Destroying The Graph（二分图最小点权覆盖集）
最小点权覆盖就是,对于有点权的有向图,选出权值和最少的点的集合覆盖所有的边. 解二分图最小点权覆盖集可以用最小割: vs-X-Y-vt这样连边,vs和X部点的连边容量为X部点的权值,Y部和vt连边容量 ...

Apache Spark源码走读之19 -- standalone cluster模式下资源的申请与释放