Spark-源码分析01-Luanch Driver

1.SparkSubmit.scala

什么是Driver 呢？其实application运行的进程就是driver，也是我们所写的代码就是Driver。

object DefaultPartitionsNum {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().master("local[*]").getOrCreate()

    val rdd1 = spark.sparkContext.textFile("path")

    rdd1.collect()

  }

}

当我们执行这段代码或者通过spark-submit提交这个application时，这段代码执行时就会启动一个Driver。而Driver的入口就是在SparkContext 中。

下面就是通过 spark-submit 提交时的源码分析

主要调用M-prepareSubmitEnvironment，该方法更根据用户定义的参数，匹配不同client，去调用不同clientApp。(ps：本次讲ClientApp 也就是standalone)

在M-runMain通过调用M-Utils.classForName 反射的方式调用 ClientApp 的 M-main （ps:如果是localhost 或者是client 直接反射用户的定义的main）

几种提交方式

// Following constants are visible for testing.

private[deploy] val YARN_CLUSTER_SUBMIT_CLASS = "org.apache.spark.deploy.yarn.YarnClusterApplication"

private[deploy] val REST_CLUSTER_SUBMIT_CLASS = classOf[RestSubmissionClientApp].getName()

private[deploy] val STANDALONE_CLUSTER_SUBMIT_CLASS = classOf[ClientApp].getName()

private[deploy] val KUBERNETES_CLUSTER_SUBMIT_CLASS ="org.apache.spark.deploy.k8s.submit.KubernetesClientApplication"

private[deploy] def prepareSubmitEnvironment(

    args: SparkSubmitArguments,

    conf: Option[HadoopConfiguration] = None)

    : (Seq[String], Seq[String], SparkConf, String)

2.ClientApp.scala

最后driver粗粒度就是DriverWrapper

通过Rpc 发送给driver

override def onStart(): Unit = {

  driverArgs.cmd match {

    case "launch" =>

      val mainClass = "org.apache.spark.deploy.worker.DriverWrapper"

      asyncSendToMasterAndForwardReply[SubmitDriverResponse](RequestSubmitDriver(driverDescription))

3.Master.scala

master 接受之后，放入map缓存中，调用M-schedule，根据资源选择一个work，向该work发送启动LaunchDriver的消息

case RequestSubmitDriver(description) =>

  if (state != RecoveryState.ALIVE) {

    val msg = s"${Utils.BACKUP_STANDALONE_MASTER_PREFIX}: $state. " +

      "Can only accept driver submissions in ALIVE state."

    context.reply(SubmitDriverResponse(self, false, None, msg))

  } else {

    logInfo("Driver submitted " + description.command.mainClass)

    val driver = createDriver(description)

    persistenceEngine.addDriver(driver)

    waitingDrivers += driver

    drivers.add(driver)

    schedule()

    // TODO: It might be good to instead have the submission client poll the master to determine

    //       the current status of the driver. For now it's simply "fire and forget".

    context.reply(SubmitDriverResponse(self, true, Some(driver.id),

      s"Driver successfully submitted as ${driver.id}"))

  }

}

private def schedule(): Unit = {

  if (state != RecoveryState.ALIVE) {

    return

  }

  // Drivers take strict precedence over executors

  val shuffledAliveWorkers = Random.shuffle(workers.toSeq.filter(_.state == WorkerState.ALIVE))

  val numWorkersAlive = shuffledAliveWorkers.size

  var curPos = 0

  for (driver <- waitingDrivers.toList) { // iterate over a copy of waitingDrivers

    // We assign workers to each waiting driver in a round-robin fashion. For each driver, we

    // start from the last worker that was assigned a driver, and continue onwards until we have

    // explored all alive workers.

    var launched = false

    var numWorkersVisited = 0

    while (numWorkersVisited < numWorkersAlive && !launched) {

      val worker = shuffledAliveWorkers(curPos)

      numWorkersVisited += 1

      if (worker.memoryFree >= driver.desc.mem && worker.coresFree >= driver.desc.cores) {

        launchDriver(worker, driver)

        waitingDrivers -= driver

        launched = true

      }

      curPos = (curPos + 1) % numWorkersAlive

    }

  }

  startExecutorsOnWorkers()

}

private def launchDriver(worker: WorkerInfo, driver: DriverInfo) {

  logInfo("Launching driver " + driver.id + " on worker " + worker.id)

  worker.addDriver(driver)

  driver.worker = Some(worker)

  worker.endpoint.send(LaunchDriver(driver.id, driver.desc))

  driver.state = DriverState.RUNNING

}

4.Work.scala

work接受消息之后，new DriverRunner() 调用该对象的M-start

case LaunchDriver(driverId, driverDesc) =>

  logInfo(s"Asked to launch driver $driverId")

  val driver = new DriverRunner(

    conf,

    driverId,

    workDir,

    sparkHome,

    driverDesc.copy(command = Worker.maybeUpdateSSLSettings(driverDesc.command, conf)),

    self,

    workerUri,

    securityMgr)

  drivers(driverId) = driver

  driver.start()

5.DriverRunner.scala

该对象中，M-start 中new 了一个线程，调用prepareAndRunDriver 最后通过 ProcessBuilder调用 DriverWrapper 的main（step2中的）

private[worker] def start() = {

  new Thread("DriverRunner for " + driverId) {

    override def run() {

      var shutdownHook: AnyRef = null

      try {

        shutdownHook = ShutdownHookManager.addShutdownHook { () =>

          logInfo(s"Worker shutting down, killing driver $driverId")

          kill()

        }

        // prepare driver jars and run driver

        val exitCode = prepareAndRunDriver()

        // set final state depending on if forcibly killed and process exit code

        finalState = if (exitCode == 0) {

          Some(DriverState.FINISHED)

        } else if (killed) {

          Some(DriverState.KILLED)

        } else {

          Some(DriverState.FAILED)

        }

      } catch {

        case e: Exception =>

          kill()

          finalState = Some(DriverState.ERROR)

          finalException = Some(e)

      } finally {

        if (shutdownHook != null) {

          ShutdownHookManager.removeShutdownHook(shutdownHook)

        }

      }

      // notify worker of final driver state, possible exception

      worker.send(DriverStateChanged(driverId, finalState.get, finalException))

    }

  }.start()

}

private[worker] def prepareAndRunDriver(): Int = {

  val driverDir = createWorkingDirectory()

  val localJarFilename = downloadUserJar(driverDir)

  def substituteVariables(argument: String): String = argument match {

    case "{{WORKER_URL}}" => workerUrl

    case "{{USER_JAR}}" => localJarFilename

    case other => other

  }

  // TODO: If we add ability to submit multiple jars they should also be added here

  val builder = CommandUtils.buildProcessBuilder(driverDesc.command, securityManager,

    driverDesc.mem, sparkHome.getAbsolutePath, substituteVariables)

  runDriver(builder, driverDir, driverDesc.supervise)

}

private[worker] def prepareAndRunDriver(): Int = {

  val driverDir = createWorkingDirectory()

  val localJarFilename = downloadUserJar(driverDir)

  def substituteVariables(argument: String): String = argument match {

    case "{{WORKER_URL}}" => workerUrl

    case "{{USER_JAR}}" => localJarFilename

    case other => other

  }

  // TODO: If we add ability to submit multiple jars they should also be added here

  val builder = CommandUtils.buildProcessBuilder(driverDesc.command, securityManager,

    driverDesc.mem, sparkHome.getAbsolutePath, substituteVariables)

  runDriver(builder, driverDir, driverDesc.supervise)

}

6.DriverWrapper.scala （粗粒度Driver client)

开始调用用户指定 jar 和main 真正开始执行我们所写的代码

def main(args: Array[String]) {

  args.toList match {

    /*

     * IMPORTANT: Spark 1.3 provides a stable application submission gateway that is both

     * backward and forward compatible across future Spark versions. Because this gateway

     * uses this class to launch the driver, the ordering and semantics of the arguments

     * here must also remain consistent across versions.

     */

    case workerUrl :: userJar :: mainClass :: extraArgs =>

      val conf = new SparkConf()

      val host: String = Utils.localHostName()

      val port: Int = sys.props.getOrElse("spark.driver.port", "0").toInt

      val rpcEnv = RpcEnv.create("Driver", host, port, conf, new SecurityManager(conf))

      logInfo(s"Driver address: ${rpcEnv.address}")

      rpcEnv.setupEndpoint("workerWatcher", new WorkerWatcher(rpcEnv, workerUrl))

      val currentLoader = Thread.currentThread.getContextClassLoader

      val userJarUrl = new File(userJar).toURI().toURL()

      val loader =

        if (sys.props.getOrElse("spark.driver.userClassPathFirst", "false").toBoolean) {

          new ChildFirstURLClassLoader(Array(userJarUrl), currentLoader)

        } else {

          new MutableURLClassLoader(Array(userJarUrl), currentLoader)

        }

      Thread.currentThread.setContextClassLoader(loader)

      setupDependencies(loader, userJar)

      // Delegate to supplied main class

      val clazz = Utils.classForName(mainClass)

      val mainMethod = clazz.getMethod("main", classOf[Array[String]])

      mainMethod.invoke(null, extraArgs.toArray[String])

      rpcEnv.shutdown()

    case _ =>

      // scalastyle:off println

      System.err.println("Usage: DriverWrapper <workerUrl> <userJar> <driverMainClass> [options]")

      // scalastyle:on println

      System.exit(-1)

  }

}

Spark-源码分析01-Luanch Driver的更多相关文章

Spark源码分析：多种部署方式之间的区别与联系（转）
原文链接:Spark源码分析:多种部署方式之间的区别与联系(1) 从官方的文档我们可以知道,Spark的部署方式有很多种:local.Standalone.Mesos.YARN.....不同部署方式的 ...
Spark源码分析（三）-TaskScheduler创建
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3879151.html 在SparkContext创建过程中会调用createTaskScheduler函 ...
【转】Spark源码分析之-deploy模块
原文地址:http://jerryshao.me/architecture/2013/04/30/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B- ...
Spark 源码分析 -- task实际执行过程
Spark源码分析 – SparkContext 中的例子, 只分析到sc.runJob 那么最终是怎么执行的? 通过DAGScheduler切分成Stage, 封装成taskset, 提交给Task ...
Spark源码分析 – BlockManager
参考, Spark源码分析之-Storage模块对于storage, 为何Spark需要storage模块?为了cache RDD Spark的特点就是可以将RDD cache在memory或dis ...
Spark源码分析 – SchedulerBackend
SchedulerBackend, 两个任务, 申请资源和task执行和管理对于SparkDeploySchedulerBackend, 基于actor模式, 主要就是启动和管理两个actor De ...
Spark源码分析 – Deploy
参考, Spark源码分析之-deploy模块 Client Client在SparkDeploySchedulerBackend被start的时候, 被创建, 代表一个application和s ...
Spark源码分析 – SparkContext
Spark源码分析之-scheduler模块这位写的非常好, 让我对Spark的源码分析, 变的轻松了许多这里自己再梳理一遍先看一个简单的spark操作, val sc = new SparkC ...
Spark源码分析之七：Task运行（一）
在Task调度相关的两篇文章<Spark源码分析之五:Task调度(一)>与<Spark源码分析之六:Task调度(二)>中,我们大致了解了Task调度相关的主要逻辑,并且在T ...
Spark源码分析之五：Task调度（一）
在前四篇博文中,我们分析了Job提交运行总流程的第一阶段Stage划分与提交,它又被细化为三个分阶段: 1.Job的调度模型与运行反馈: 2.Stage划分: 3.Stage提交:对应TaskSet的 ...

随机推荐

在O（1）的时间内删除链表节点
题目: 在O(1)的时间内删除链表节点.给定链表的头指针和待删除的节点指针,定义一个函数在O(1)的时间内删除该节点. 剑指offer的思路,顿时觉得极妙.删除节点node1,先把其下一个节点node ...
Java数据结构-ArrayList最细致的解析笔记
ArrayList是一个类,这个类有一个数组参数elementData,ArrayList集合中的元素正是保存在这个数组中,它继承了数组查询的高性能,参考第3篇.ArrayList还封装了很多方法,便 ...
linux 不能进入系统 Failed to load SELinux policy. Freezing
错误原因配置关闭SELinux,结果误操作应修改配置文件/etc/selinux/config中的“SELINUX”参数的值, # SELINUX=enforcing 原始配置 SELINUX=d ...
Visual Studio 使用 Parallel Builds Monitor 插件迅速找出编译速度慢的瓶颈，优化编译速度
原文:Visual Studio 使用 Parallel Builds Monitor 插件迅速找出编译速度慢的瓶颈,优化编译速度嫌项目编译太慢?不一定是 Visual Studio 的问题,有可能 ...
python入门基础 02
目录 1.while 2.字符串格式化 3.运算符 4.编码初始总结 1.while # while -- 关键字 (死循环) # # if 条件: # 结果 # # while 条件: # 循环体 ...
Python进阶(五)----内置函数Ⅱ 和闭包
Python进阶(五)----内置函数Ⅱ 和闭包一丶内置函数Ⅱ ####内置函数#### 特别重要,反复练习 ###print() 打印输入 #sep 设定分隔符 # end 默认是换行可以打印到 ...
selenium浏览器自动化测试框架文档（修正版）
写在最前面:目前自动化测试并不属于新鲜的事物,或者说自动化测试的各种方法论已经层出不穷,但是,能够在项目中持之以恒的实践自动化测试的团队,却依旧不是非常多.有的团队知道怎么做,做的还不够好:有的团队还 ...
hexo更改主题
github+hexo搭建好个人博客之后,一般都挑选自己喜欢的主题.在这里为大家介绍一下比如何挑选主题以及如何修改主题. 主题选择: 1:知乎推荐 2:hexo官方本地目录中打开git bash: ...
RTSP协议介绍（转）
1. 实时流协议RTSP RTSP[3]协议以客户服务器方式工作,它是一个多媒体播放控制协议,用来使用户在播放从因特网下载的实时数据时能够进行控制,如:暂停/继续.后退.前进等.因此 RTSP ...
日志 logback-spring.xml配置
文章转载自: https://blog.csdn.net/xu_san_duo/article/details/80364600 logback-spring.xml配置文件 1. 自己改下value ...

Spark-源码分析01-Luanch Driver

Spark-源码分析01-Luanch Driver的更多相关文章

随机推荐

热门专题