Spark Scheduler 模块（下）

Scheduler 模块中最重要的两个类是 DAGScheduler 和 TaskScheduler。上篇讲了 DAGScheduler，这篇讲 TaskScheduler。

TaskScheduler

前面提到，在 SparkContext 初始化的过程中，根据 master 的类型分别创建不同的 TaskScheduler 的实现。当 master 为 local, spark, mesos 时创建 TaskSchedulerImpl，当 master 为 YARN 时，创建其他的实现，读者可以自行研究。

master match {

  case "local" =>

    val scheduler = new TaskSchedulerImpl(sc, MAX_LOCAL_TASK_FAILURES, isLocal = true)

    val backend = new LocalBackend(sc.getConf, scheduler, )

    scheduler.initialize(backend)

    (backend, scheduler)

  case SPARK_REGEX(sparkUrl) =>

    val scheduler = new TaskSchedulerImpl(sc)

    val masterUrls = sparkUrl.split(",").map("spark://" + _)

    val backend = new SparkDeploySchedulerBackend(scheduler, sc, masterUrls)

    scheduler.initialize(backend)

    (backend, scheduler)

  case mesosUrl @ MESOS_REGEX(_) =>

    MesosNativeLibrary.load()

    val scheduler = new TaskSchedulerImpl(sc)

    val coarseGrained = sc.conf.getBoolean("spark.mesos.coarse", false)

    val url = mesosUrl.stripPrefix("mesos://") // strip scheme from raw Mesos URLs

    val backend = if (coarseGrained) {

      new CoarseMesosSchedulerBackend(scheduler, sc, url, sc.env.securityManager)

    } else {

      new MesosSchedulerBackend(scheduler, sc, url)

    }

    scheduler.initialize(backend)

    (backend, scheduler)

  ....

}

此时细心的读者就会有疑问了， TaskScheduler 需要将任务调度在不同的资源管理平台上（local, spark, mesos），怎么就能使用同一个 TaskSchedulerImpl 呢？注意这里有个很重要的成员 backend。每种 master 对应的 backend 都不一样，而正是这个 backend 负责与资源管理平台通信。

因为这个层面的调度，需要跟资源管理器通信了，所以也会部分的涉及到 deploy 模块和 executor 模块的内容。因为 Local 模式的过于简单（本地启动多线程处理 task），而 YARN 和 Mesos 需要编程接口相关的背景知识，这里我们选择 SparkDeploySchedulerBackend 着重分析。这是 Spark 自身实现的资源管理系统，有些读者可能已经搭建和使用过。

TaskSchedulerImpl 的启动

在 SparkContext 中（上面代码），首先创建了 TaskSchedulerImpl 和 SparkDeploySchedulerBackend，并将 backend 传入 TaskSchedulerImpl。之后启动了 TaskSchedulerImpl。

// Create and start the scheduler

val (sched, ts) = SparkContext.createTaskScheduler(this, master)

_schedulerBackend = sched

_taskScheduler = ts

_dagScheduler = new DAGScheduler(this)

_heartbeatReceiver.ask[Boolean](TaskSchedulerIsSet)

// start TaskScheduler after taskScheduler sets DAGScheduler reference in DAGScheduler's

// constructor

_taskScheduler.start()

TaskSchedulerImpl.start 方法主要是调用了 backend.start()。SparkDeploySchedulerBackend 的启动首先调用父类 CoarseGrainedSchedulerBackend 的 start 方法，其中创建了一个 driverEndpoint，它是一个本地的 driver，以 RPC 的方式与其他 executor 通信。

// CoarseGrainedSchedulerBackend.scala
override def start() {

  driverEndpoint = rpcEnv.setupEndpoint(

      CoarseGrainedSchedulerBackend.ENDPOINT_NAME, new DriverEndpoint(rpcEnv, properties))

}

// SparkDeploySchedulerBackend.scala

override def start() {

  super.start()

  // The endpoint for executors to talk to us

  val driverUrl = rpcEnv.uriOf(SparkEnv.driverActorSystemName,

      RpcAddress(sc.conf.get("spark.driver.host"), sc.conf.get("spark.driver.port").toInt),

      CoarseGrainedSchedulerBackend.ENDPOINT_NAME)

  val args = Seq(

    "--driver-url", driverUrl,

    "--executor-id", "{{EXECUTOR_ID}}",

    "--hostname", "{{HOSTNAME}}",

    "--cores", "{{CORES}}",

    "--app-id", "{{APP_ID}}",

    "--worker-url", "{{WORKER_URL}}")

  ....

  val command = Command("org.apache.spark.executor.CoarseGrainedExecutorBackend",

      args, sc.executorEnvs, classPathEntries ++ testingClassPath, libraryPathEntries, javaOpts)

  val appDesc = new ApplicationDescription(sc.appName, maxCores, sc.executorMemory,

      command, appUIAddress, sc.eventLogDir, sc.eventLogCodec, coresPerExecutor)

  client = new AppClient(sc.env.rpcEnv, masters, appDesc, this, conf)

  client.start()

  waitForRegistration()

}

这里的创建了一个 client:AppClient，它会连接到 masters(spark://master:7077) 上，附带一条命令 command，用来启动 executor，改命令还有 driver-url 的参数。如此 executor 启动时就能自动连接上 driver。

至此，TaskSchedulerImpl 和 SparkDeploySchedulerBackend 的启动过程已经完成。主要做了两件事情，启动 local driver，通知 masters 启动 executors。并且 driver 和 executors 使用了 RPC 通信。

注：至于 executor 如何启动，等待分析 deploy 和 executor 模块的时候再仔细分析。

TaskSchedulerImpl 提交任务

在上一篇中，我们说到 DAGScheduler 最后调用了 taskScheduler.submitTasks 提交任务。下面继续上篇的分析：

override def submitTasks(taskSet: TaskSet) {

  val tasks = taskSet.tasks

  this.synchronized {

    val manager = createTaskSetManager(taskSet, maxTaskFailures)

    val stage = taskSet.stageId

    val stageTaskSets =

      taskSetsByStageIdAndAttempt.getOrElseUpdate(stage, new HashMap[Int, TaskSetManager])

    stageTaskSets(taskSet.stageAttemptId) = manager

    schedulableBuilder.addTaskSetManager(manager, manager.taskSet.properties) // 将任务加入到变量 rootPool 中

  }

  backend.reviveOffers()

}

这里将 TaskSet 再包装成 TaskSetManager，加入到 schedulableBuilder 中。顺便提一下，schedulableBuilder 是 Spark 的调度策略实现，有 FIFO 和 FAIR 两种，默认的是 FIFO。它们最终都是把 TaskSetManager 放到了 rootPool 中。

然后调用了 backend.reviveOffers，这里有个较转折的调用关系。因为 SparkDeploySchedulerBackend 没有方法 reviveOffers，所以是调用了其父类 CoarseGrainedSchedulerBackend 的同名方法。而 CoarseGrainedSchedulerBackend.reviveOffers 实现中只有一行，即

override def reviveOffers() {

  driverEndpoint.send(ReviveOffers)

}

而 DriverEndpoint 接收到 ReviceOffers，调用了 makeOffers 方法：

private def makeOffers() {

  // Filter out executors under killing

  val activeExecutors = executorDataMap.filterKeys(!executorsPendingToRemove.contains(_))

  val workOffers = activeExecutors.map { case (id, executorData) =>

        new WorkerOffer(id, executorData.executorHost, executorData.freeCores)

  }.toSeq

  launchTasks(scheduler.resourceOffers(workOffers))

}

整个调用关系为 TaskScheduler.submitTasks() -> CoarseGrainedSchedulerBackend.reviveOffers() -> RpcEndpointRef.send(ReviveOffers) ->DriverEndpoint.ReviceOffers -> DriverEndpoint.makeOffers

这里调用 TaskSchedulerImpl 的方法 resourceOffers，该方法给任务分配计算资源。接着调用了 CoarseGrainedSchedulerBackend.launchTasks，真正向 executor 发送计算任务。

// Launch tasks returned by a set of resource offers

private def launchTasks(tasks: Seq[Seq[TaskDescription]]) {

  for (task <- tasks.flatten) {

    val serializedTask = ser.serialize(task) // 序列化 task

    if (serializedTask.limit >= akkaFrameSize - AkkaUtils.reservedSizeBytes) {

      // 序列化结果超过上限，报警

    }

    else {

      val executorData = executorDataMap(task.executorId) // 选择一个 executor 执行 task

      executorData.freeCores -= scheduler.CPUS_PER_TASK // 标记 executor 的 CPU 资源被占用了一部分

      executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask))) // 向 executor 的 RPC 服务器发送执行 task 信息

    }

  }

}

上文提到，TaskSchedulerImpl 启动时，masters 也启动了 executor，具体的启动方法是 org.apache.spark.executor.CoarseGrainedExecutorBackend。所以 executor 接受消息的方法也在该类中：

// org.apache.spark.executor.CoarseGrainedExecutorBackend

override def receive: PartialFunction[Any, Unit] = {

  case LaunchTask(data) =>

    if (executor == null) {

      logError("Received LaunchTask command but executor was null")

      System.exit()

    } else {

      val taskDesc = ser.deserialize[TaskDescription](data.value) // 发序列化

      logInfo("Got assigned task " + taskDesc.taskId)

      executor.launchTask(this, taskId = taskDesc.taskId, attemptNumber = taskDesc.attemptNumber,

        taskDesc.name, taskDesc.serializedTask)

    }

  ...

}

executor 执行 task：

// org.apache.spark.executor.Executor

def launchTask(

    context: ExecutorBackend,

    taskId: Long,

    attemptNumber: Int,

    taskName: String,

    serializedTask: ByteBuffer): Unit = {

  val tr = new TaskRunner(context, taskId = taskId, attemptNumber = attemptNumber, taskName, serializedTask) // 创建线程执行 task

  runningTasks.put(taskId, tr)

  threadPool.execute(tr)

}

TaskRunner 使用 ClassLoader 中从字节中加载 Task，并执行得到结果，把结果序列化使用 RPC 返回。

// org.apache.spark.executor.Executor.TaskRunner

override def run(): Unit = {

  execBackend.statusUpdate(taskId, TaskState.RUNNING, EMPTY_BYTE_BUFFER) // executor 通知 driver，正在执行 task

  try {

    val (taskFiles, taskJars, taskBytes) = Task.deserializeWithDependencies(serializedTask) // 反序列化出依赖文件，jar包，任务自身

    updateDependencies(taskFiles, taskJars)

    task = ser.deserialize[Task[Any]](taskBytes, Thread.currentThread.getContextClassLoader)

    task.setTaskMemoryManager(taskMemoryManager)

    val (value, accumUpdates) = try {

      val res = task.run(taskAttemptId = taskId, attemptNumber = attemptNumber, metricsSystem = env.metricsSystem) // 执行 task

      res

    } finally {

      ...

    }

    val resultSer = env.serializer.newInstance()

    val valueBytes = resultSer.serialize(value) // 序列化结果

    execBackend.statusUpdate(taskId, TaskState.FINISHED, serializedResult) // 以 RPC 的方式返回结果给 driver

} catch {

  ...

}

至此 task 在 TaskSchedulerImpl 内运行的流程有了一个大致介绍。其中略过了很多分支，但不影响读者对整体流程的理解。

总结

Spark Scheduler 模块上下两篇对 Spark 的调度逻辑按照执行的顺序有了一个概括的介绍。

Scheduler 模块的代码架构充分体现了分层和隔离的设计哲学。首先 DAGScheduler 是 Spark 独有的逻辑，而 TaskScheduler 则因资源调度器而各不相同，所以把调度部分割裂成这两部分，前者只需一种实现，而后者可以在不同平台各自实现。即便是 TaskScheduler，在多种平台上也有共性，所以 TaskSchedulerImpl 也是一个较通用的实现，只是与资源调度器的通信部分使用了不同的 backend。

Spark Scheduler 模块（下）的更多相关文章

Spark Scheduler模块源码分析之TaskScheduler和SchedulerBackend
本文是Scheduler模块源码分析的第二篇,第一篇Spark Scheduler模块源码分析之DAGScheduler主要分析了DAGScheduler.本文接下来结合Spark-1.6.0的源码继 ...
Spark Scheduler模块源码分析之DAGScheduler
本文主要结合Spark-1.6.0的源码,对Spark中任务调度模块的执行过程进行分析.Spark Application在遇到Action操作时才会真正的提交任务并进行计算.这时Spark会根据Ac ...
Spark（五十二）：Spark Scheduler模块之DAGScheduler流程
导入从一个Job运行过程中来看DAGScheduler是运行在Driver端的,其工作流程如下图: 图中涉及到的词汇概念: 1. RDD——Resillient Distributed Datase ...
Spark Scheduler 模块（上）
在阅读 Spark 源代码的过程中,发现单步调试并不能很好的帮助理解程序.这样的多线程的分布式系统,更好的阅读源代码的方式是依据模块,分别理解. 在包 org.apache.spark 下面有很多 ...
Spark Deploy 模块
Spark Scheduler 模块的文章中,介绍到 Spark 将底层的资源管理和上层的任务调度分离开来,一般而言,底层的资源管理会使用第三方的平台,如 YARN 和 Mesos.为了方便用户测试和 ...
【转】Spark源码分析之-scheduler模块
原文地址:http://jerryshao.me/architecture/2013/04/21/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B- ...
Spark Scheduler内部原理剖析
文章正文通过文章“Spark 核心概念RDD”我们知道,Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度.Spark的任务调度 ...
[Spark Core] Spark 在 IDEA 下编程
0. 说明 Spark 在 IDEA 下使用 Scala & Spark 在 IDEA 下使用 Java 编写 WordCount 程序 1. 准备在项目中新建模块,为模块添加 Maven ...
Spark scheduler
触发Spark scheduler的入口是调用者代码中的action操作,如groupByKey,first,take,foreach等操作.这些action操作最终会调用SparkContext.r ...

随机推荐

复盘实战营一期毕业典礼----HHR计划----以太入门课--第一课
你要永远记住,实事求是. 我好像没能力给大家分享什么.分享点我的专业知识吧.我是做推荐+增长的,在一家D轮 DAU快千万的创业公司做增长优化负责人.一路优化,我把人均时长提高了30多分钟(现在人均时长 ...
1012 The Best Rank (25分) vector与结构体排序
1012 The Best Rank (25分) To evaluate the performance of our first year CS majored students, we con ...
DuiLib中FlashDemo的例子经验杂粹1
转载:https://www.jianshu.com/p/3e958ae9e5ab 最近用duilib做个东西,经常卡壳 ,而且以前学的现在又忘.现在觉得应该好好做笔记,以前老是觉得博客是很郑重的东西 ...
JNDI Java 命名与目录接口
jsp <% Context ctx = new InitialContext(); String jndiName = (String) ctx.lookup("java:comp/ ...
HTML 5 <em> <strong> <dfn> <code> <samp> <kbd> <var> <cite> 标签
<em> 呈现为被强调的文本. <strong> 定义重要的文本. <dfn> 定义一个定义项目. <code> 定义计算机代码文本. <samp ...
Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL
由于mysql版本过高创建连接的时候会出现如下报告解决办法:在mysql连接上加上&useSSL=true 如下:jdbc:mysql:///:3366:test?useUnicode=tr ...
为Linux环境安装图形化界面
1.更新软件源并升级系统 yum uppdate&&yum install wqy-microhei-fonts 2.安装GNOME+VNC一键包 wget https://gist. ...
java并发:原子类之AtomicLong
原子类之AtomicLong java线程中的操作,需要满足原子性.可见性等原则,比如i++这样的操作不具备原子性, A线程读取了i,另一个线程执行i++,A线程再执行i++就会引发线程安全问题推荐 ...
Android简单计时器(转)
原文:http://blog.csdn.net/fwwdn/article/details/7550822 本文利用ContextMenu(上下文菜单),Chronometer实现简单计数器. Mai ...
MAC Matlab 中文乱码
环境:macOS High Sierra 10.13.4 问题:文件中文注释乱码(再次打开文件时) / 控制台输出中文乱码解决方法: 官网下载补丁(https://ww2.mathworks.cn/ ...

Spark Scheduler 模块（下）

Spark Scheduler 模块（下）的更多相关文章

随机推荐

热门专题