Spark源码剖析（九）：TaskScheduler原理与源码剖析

接着上期内核源码（六）的最后，DAGSchedule会将每个Job划分一系列stage，然后为每个stage创建一批task（数量与partition数量相同），并计算其运行的最佳位置，最后针对这一批task创建一个TaskSet对象，调用submitTasks方法提交TaskSet到TaskSchedule。那么这篇文章我们来剖析TaskScheduler接收到TaskSet后会进行的一系列操作。

taskScheduler.submitTasks(
new TaskSet(tasks.toArray, stage.id, stage.newAttemptId(), stage.jobId, properties))

创建TaskSetManager负责某一个TaskSet任务执行情况的监控和管理
调用SparkDeployScheduleBackend的reviveOffers方法。

val manager = createTaskSetManager(taskSet, maxTaskFailures)

backend.reviveOffers()

果然在父类CoarseGrainedSchedulerBackend中找到了reviveOffers方法，发送reviveOffers消息给driverActor。

紧接着我们来看看driverActor线程收到reviveOffers消息后如何处理

new DriverActor(properties)可以看到DriverActor类是CoarseGrainedSchedulerBackend中的类部类

可以看到driverActor线程收到reviveOffers消息后调用了makeOffers()方法：

调用TaskScheduleImpl的resourceOffers方法，执行任务分配算法，将各个task分配到Executor上去。
分配好task到executor之后，执行自己的launchTasks方法，将分配的task发送LaunchTask消息
到对应的Executor上去，由Executor启动并执行task。

new WorkerOffer()代表每个Executor上空闲的资源

scheduler.resourceOffers() 任务分配算法入口

任务分配算法核心：
双重for循环，第一层遍历所有taskset，第二层遍历每一种本地化级别（从优到劣）
本地化级别：
* PROCESS_LOCAL：进程本地化，RDD的partition和task进入同一个Executor内，那么速度当然快
* NODE_LOCAL：RDD的partition和task在同一个worker节点上
* NO_PREF：无，没有所谓的本地化级别
* RACK_LOCAL：机架本地化，RDD的partition和task在同一个机架上
* ANY：任意的本地化级别

launchedTask = resourceOfferSingleTaskSet(
taskSet, maxLocality, shuffledOffers, availableCpus, tasks)

taskSet.resourceOffer(execId, host, maxLocality)

Scheduler.resourceOffers方法最终会返回已经分配好Executor的任务列表tasks。
launchTasks方法会接收tasks列表作为参数，通知对应的Executor启动相应的task

至此TaskSchedule处理TaskSet的流程已经全部结束，我们稍作总结：

当TaskScheduler接收到从DAGScheduler提交过来的TaskSet时，首先给每个TaskSet都创建一个TaskSetManager负责管理和监控该TaskSet。
接着调用SparkDeployScheduleBackend的reviveOffers方法，经过一系列调用到makeOffers方法。
makeOffers方法中的Scheduler.resourceOffers方法会调用TaskScheduleImpl的resourceOffers方法，执行任务分配算法，将各个task分配到Executor上去。
makeOffers方法中的launchTasks方法接收已经分配完成的tasks列表，并为每个task发送LaunchTask消息到对应的Executor上去，由Executor启动并执行task。

下一篇我们将剖析Executor接收到LaunchTask消息后会如何一步步启动Task。

Spark源码剖析（九）：TaskScheduler原理与源码剖析的更多相关文章

2，MapReduce原理及源码解读
MapReduce原理及源码解读目录 MapReduce原理及源码解读一.分片灵魂拷问:为什么要分片? 1.1 对谁分片 1.2 长度是否为0 1.3 是否可以分片 1.4 分片的大小 1.5 ...
Spark源码剖析（七）：Job触发流程原理与源码剖析
引言我们知道在application中每存在一个action操作就会触发一个job,那么spark底层是怎样触发job的呢?接下来我们用一个wordcount程序来剖析一下job的触发机制. 解析w ...
[Spark内核] 第32课：Spark Worker原理和源码剖析解密：Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等
本課主題 Spark Worker 原理 Worker 启动 Driver 源码鉴赏 Worker 启动 Executor 源码鉴赏 Worker 与 Master 的交互关系 [引言部份:你希望读者 ...
Spark源码剖析（八）：stage划分原理与源码剖析
引言对于Spark开发人员来说,了解stage的划分算法可以让你知道自己编写的spark application被划分为几个job,每个job被划分为几个stage,每个stage包括了你的哪些代码 ...
spark 源码分析之四 -- TaskScheduler的创建和启动过程
在 spark 源码分析之二 -- SparkContext 的初始化过程中,第 14 步和 16 步分别描述了 TaskScheduler的初始化和启动过程. 话分两头,先说 TaskSc ...
spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析
在上篇 spark 源码分析之五 -- Spark内置RPC机制剖析之一创建NettyRPCEnv 中,涉及到了Diapatcher 内容,未做过多的剖析.本篇来剖析一下它的工作原理. Dispatc ...
spark 源码分析之十--Spark RPC剖析之TransportResponseHandler、TransportRequestHandler和TransportChannelHandler剖析
spark 源码分析之十--Spark RPC剖析之TransportResponseHandler.TransportRequestHandler和TransportChannelHandler剖析 ...
老李推荐：第6章8节《MonkeyRunner源码剖析》Monkey原理分析-事件源-事件源概览-小结
老李推荐:第6章8节<MonkeyRunner源码剖析>Monkey原理分析-事件源-事件源概览-小结本章我们重点围绕处理网络过来的命令的MonkeySourceNetwork这个事 ...
老李推荐：第6章7节《MonkeyRunner源码剖析》Monkey原理分析-事件源-事件源概览-注入按键事件实例
老李推荐:第6章7节<MonkeyRunner源码剖析>Monkey原理分析-事件源-事件源概览-注入按键事件实例 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜 ...

随机推荐

关于C语言中static保留字的使用
static存储类型可以用于全部变量,无需考虑变量声明的位置.但是作用于块外部和块内部时具有不同的作用. (1)当作用于函数内部时,和每次程序离开所在块就会丢失值的自 ...
【Hdu3555】 Bomb（数位DP）
Description 题意就是找0到N有多少个数中含有49. \(1\leq N \leq2^{63}-1\) Solution 数位DP,与hdu3652类似 \(F[i][state]\)表示位 ...
Android笔记（五）利用Intent启动活动
Intent是意图的意思,分为显式 Intent 和隐式 Intent. 以下我们试图在FirstActivity中通过点击button来启动SecondActivity 1.显式Intent 在应用 ...
怎样提升 RailS 应用的性能？
Is rails slow? 「铁路非常慢」,你或许听过这个笑话,那么我们的 Rails 框架呢? 假设说 Rails 慢,那么怎样提升 Rails APP 的性能就成了开发人员们最关注的问题. 或许 ...
JAVA入门[20]-Spring Data JPA简单示例
Spring 对 JPA 的支持已经非常强大,开发者只需关心核心业务逻辑的实现代码,无需过多关注 EntityManager 的创建.事务处理等 JPA 相关的处理.Spring Data JPA更是 ...
ASP.NET Core 返回 Json DateTime 格式
ASP.NET Core 返回 Json 格式的时候,如果返回数据中有DateTime类型,如何自定义其格式呢?配置如下: services.AddMvc().AddJsonOptions(opt = ...
Asynchronous vs synchronous client applications（MQTT）
来自我的CSDN博客想查看英文原文的请点击原文网址.在上两篇翻译中,Homejim我给大家分别翻译了同步客户端应用程序和异步客户端应用程序.本人对这两个的区别也有困惑,因此将paho下的这个比较 ...
centos6.5安装禅道
1.安装禅道需要安装以下环境 mysql php 5 apache 2 2.安装命令 1.安装mysql yum install mysql mysql-server 2.安装apache yum i ...
pytho核心编程2-1中代码运行问题
书籍是<python核心编程>第三版,学习环境py3.6 2-1 时间戳服务器附源代码: from socket import * from time import ctime HOST ...
iOS sourceTree忽略掉必要的xcuserdata文件
1.找到git对应的文件 git status 结果会得到已经修改的文件. modified: Zing.xcodeproj/xcuserdata/tiny.xcuserdatad/xcscheme ...

Spark源码剖析（九）：TaskScheduler原理与源码剖析

Spark源码剖析（九）：TaskScheduler原理与源码剖析的更多相关文章

随机推荐

热门专题