TaskScheduler

一初始化

在SparkContext初始化的时候，同时初始化三个对象。DAGScheduler，TaskScheduler，SchedulerBackend。DAGScheduler，前面已经讲到，做stage的划分及每个stage对应的task划分及任务提交，SchedulerBackend用于资源划分。本节讲TaskScheduler。

  private[spark] def schedulerBackend: SchedulerBackend = _schedulerBackend

  private[spark] def taskScheduler: TaskScheduler = _taskScheduler

  private[spark] def taskScheduler_=(ts: TaskScheduler): Unit = {

    _taskScheduler = ts

  }

  private[spark] def dagScheduler: DAGScheduler = _dagScheduler

  private[spark] def dagScheduler_=(ds: DAGScheduler): Unit = {

    _dagScheduler = ds

  }

具体到TaskScheduler，是在createTaskScheduler函数中，使用模式匹配分别对各种情况下创建三个对象。

 master match {

      case "local" =>case LOCAL_N_REGEX(threads) =>case LOCAL_N_FAILURES_REGEX(threads, maxFailures) =>case SPARK_REGEX(sparkUrl) =>

        val scheduler = new TaskSchedulerImpl(sc)

        val masterUrls = sparkUrl.split(",").map("spark://" + _)

        val backend = new StandaloneSchedulerBackend(scheduler, sc, masterUrls)

        scheduler.initialize(backend)

        (backend, scheduler)

      case LOCAL_CLUSTER_REGEX(numSlaves, coresPerSlave, memoryPerSlave) =>

        case masterUrl =>

    }

在cluster集群模式下，TaskScheduler得到了TaskSchedulerImpl实例，SchedulerBackend得到了StandaloneSchedulerBackend实例。

2构建调度池

def initialize(backend: SchedulerBackend) {

    this.backend = backend

    // temporarily set rootPool name to empty

    rootPool = new Pool("", schedulingMode, 0, 0)

    schedulableBuilder = {

      schedulingMode match {

        case SchedulingMode.FIFO =>

          new FIFOSchedulableBuilder(rootPool)

        case SchedulingMode.FAIR =>

          new FairSchedulableBuilder(rootPool, conf)

        case _ =>

          throw new IllegalArgumentException(s"Unsupported spark.scheduler.mode: $schedulingMode")

      }

    }

    schedulableBuilder.buildPools()

  }

在生成这两个对象后，接下来将backend传入scheduler的初始化方法中进行初始化，TaskSchedulerImpl.initialize方法中主要是根据调度模式初始化调度池。

spark中的调度模式主要有两种：FIFO和FAIR。默认情况下Spark的调度模式是FIFO（先进先出），谁先提交谁先执行，后面的任务需要等待前面的任务执行。而FAIR（公平调度）模式支持在调度池中为任务进行分组，不同的调度池权重不同，任务可以按照权重来决定执行顺序。

3启动

初始化成功，资源调度初始化成功，启动TaskScheduler.

override def submitTasks(taskSet: TaskSet) {

    val tasks = taskSet.tasks

    logInfo("Adding task set " + taskSet.id + " with " + tasks.length + " tasks")

    this.synchronized {

      // 生成一个TaskSetManager类型对象，

      // task最大重试次数，由参数spark.task.maxFailures设置，默认为4

      val manager = createTaskSetManager(taskSet, maxTaskFailures)

      val stage = taskSet.stageId

      // key为stageId，value为一个HashMap，这个HashMap中的key为stageAttemptId，value为TaskSetManager对象

      val stageTaskSets =

        taskSetsByStageIdAndAttempt.getOrElseUpdate(stage, new HashMap[Int, TaskSetManager])

      stageTaskSets(taskSet.stageAttemptId) = manager

      // 如果当前这个stageId对应的HashMap[Int, TaskSetManager]中存在某个taskSet

      // 使得当前的taskSet和这个taskSet不是同一个，并且当前这个TaskSetManager不是zombie进程

      // 即对于同一个stageId，如果当前这个TaskSetManager不是zombie进程，即其中的tasks需要运行，

      // 并且对当前stageId，有两个不同的taskSet在运行

      // 那么就应该抛出异常，确保同一个Stage在正常运行情况下不能有两个taskSet在运行

      val conflictingTaskSet = stageTaskSets.exists { case (_, ts) =>

        ts.taskSet != taskSet && !ts.isZombie

      }

      if (conflictingTaskSet) {

        throw new IllegalStateException(s"more than one active taskSet for stage $stage:" +

          s" ${stageTaskSets.toSeq.map{_._2.taskSet.id}.mkString(",")}")

      }

      // 根据调度模式生成FIFOSchedulableBuilder或者FairSchedulableBuilder，将当前的TaskSetManager提交到调度池中

      schedulableBuilder.addTaskSetManager(manager, manager.taskSet.properties)

      if (!isLocal && !hasReceivedTask) {

        starvationTimer.scheduleAtFixedRate(new TimerTask() {

          override def run() {

            if (!hasLaunchedTask) {

              logWarning("Initial job has not accepted any resources; " +

                "check your cluster UI to ensure that workers are registered " +

                "and have sufficient resources")

            } else {

              this.cancel()

            }

          }

        }, STARVATION_TIMEOUT_MS, STARVATION_TIMEOUT_MS)

      }

      hasReceivedTask = true

    }

    // 向schedulerBackend申请资源

    backend.reviveOffers()

  }

TaskSetManager

每个taskset都会创建一个对应的TaskManager来管理其生命周期。通过参数指定如果任务失败后的重试次数。

TaskScheduler的更多相关文章

TaskScheduler一个.NET版任务调度器
TaskScheduler是一个.net版的任务调度器.概念少,简单易用. 支持SimpleTrigger触发器,指定固定时间间隔和执行次数: 支持CronTrigger触发器,用强大的Cron表达式 ...
《深入理解Spark：核心思想与源码分析》——SparkContext的初始化（叔篇）——TaskScheduler的启动
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
TaskScheduler的启动
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
18 TaskScheduler任务调度器抽象基类——Live555源码阅读(一)任务调度相关类
这是Live555源码阅读的第二部分,包括了任务调度相关的三个类.任务调度是Live555源码中很重要的部分. 本文由乌合之众 lym瞎编,欢迎转载 http://www.cnblogs.com/ol ...
SparkContext的初始化（叔篇）——TaskScheduler的启动
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
Spark源码分析（三）-TaskScheduler创建
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3879151.html 在SparkContext创建过程中会调用createTaskScheduler函 ...
live555源码研究（二）------TaskScheduler类
一.TaskScheduler类作用 1,他是使用环境的一部分. 2,他提供了对socket触发事件的管理. 二.类TaskScheduler继承关系图二.TaskScheduler成员函数 1,s ...
spring 定时任务 taskScheduler详解
spring 3.0版本后,自带了一个定时任务工具,而且使用简单方便,不用配置文件,可以动态改变执行状态.也可以使用cron表达式设置定时任务. 被执行的类要实现Runnable接口 TaskSche ...
用惯了Task，你应该也需要了解它的内部调度机制TaskScheduler
平时我们在用多线程开发的时候少不了Task,确实task给我们带来了巨大的编程效率,在Task底层有一个TaskScheduler,它决定了task该如何执行,而在 .net framework中有两 ...
Spark源码剖析（九）：TaskScheduler原理与源码剖析
接着上期内核源码(六)的最后,DAGSchedule会将每个Job划分一系列stage,然后为每个stage创建一批task(数量与partition数量相同),并计算其运行的最佳位置,最后针对这一批 ...

随机推荐

渲染标签 - v-text
<!DOCTYPE html><html><head> <meta charset="utf-8"> <title ...
es6模块与 commonJS规范的区别
https://www.cnblogs.com/weblinda/p/6740833.html
常见模块(四) os模块
注: os模块是实现python程序对操作系统(operation system)的操作 1.对文件或者目录进行删除或者创建的相关操作 # os.rename("b"," ...
docker lamp
可以直接使用官方镜像搭建LAMP环境从官方下载PHP+Apache镜像和MySQL两个镜像来组成(如:php:7.2.3-apache-stretch和mysql:5.7.21)docker pull ...
《Linux内核原理与分析》第四次作业
跟踪分析Linux内核的启动过程使用实验楼的虚拟机打开shell 使用 gdb 跟踪调试内核使用 qemu qemu -kernel linux-3.18.6 /arch/x86/boot/baI ...
MySQL 列，可选择的数据类型（通过sql命令查看：`help create table;`）
MySQL 列,可选择的数据类型(通过sql命令查看:help create table;) BIT[(length)] | TINYINT[(length)] [UNSIGNED] [ZEROFIL ...
[转]c++访问python3-实例化类的方法
转自: http://blog.csdn.net/love_clc/article/details/76653100 此文是学习笔记,供日后翻阅.下面列出C++访问python所需的函数,按调用的先后 ...
postgreSQL数据库limit分页、排序
postgreSQL数据库limit分页.排序语法: select * from persons limit A offset B; 解释: A就是你需要多少行: B就是查询的起点位置. 示例 ...
测试网站nginx是否支持tls1.2的命令行
[root@~]# nmap --script ssl-enum-ciphers -p 443 www.想休息.cn Starting Nmap 5.51 ( http://nmap.org ) at ...
plot
scatter import pandas as pd df_train=pd.read_excel(r"C:\Users\Liugengxin\Desktop\回归.xlsx") ...

TaskScheduler

TaskScheduler的更多相关文章

随机推荐

热门专题