spark 笔记 13: 再看DAGScheduler，stage状态更新流程

当某个task完成后，某个shuffle Stage X可能已完成，那么就可能会一些仅依赖Stage X的Stage现在可以执行了，所以要有响应task完成的状态更新流程。

=======================DAG task完成后的更新流程===================

->CoarseGrainedSchedulerBackend::receiveWithLogging --调度器的事件接收器

->case StatusUpdate(executorId, taskId, state, data) --状态更新事件（来源于CoarseGrainedExecutorBackend）

->scheduler.statusUpdate(taskId, state, data.value) --状态更新

->taskResultGetter.enqueueSuccessfulTask(taskSet, tid, serializedData) --将成功的时间封装到一个executor排队执行

->getTaskResultExecutor.execute(new Runnable {override def run(): Unit = Utils.logUncaughtExceptions {

->val result = serializer.get().deserialize[TaskResult[_]](serializedData) match { --反序列化结果

->scheduler.handleSuccessfulTask(taskSetManager, tid, result) --处理成功的task

->taskSetManager.handleSuccessfulTask(tid, taskResult)

-> sched.dagScheduler.taskEnded(tasks(index) ... result.metrics) --另起一段

->maybeFinishTaskSet() --判断是否taskSet结束了，更新状态。注意：在DAG里，调度的粒度是taskSet。

->sched.taskSetFinished(this) --如果taskSet结束了，更新DAG的这个调度单元

->activeTaskSets -= manager.taskSet.id --从active taskSet中删除tid

->manager.parent.removeSchedulable(manager)

->schedulableQueue.remove(schedulable) --从调度队列中删除tid

->schedulableNameToSchedulable.remove(schedulable.name) --删除调度单元。

->makeOffers(executorId) --将这个executorId分配给其他task使用

->DAGScheduler::taskEnded --任务结束事件处理流程

->eventProcessActor ! CompletionEvent(task, reason, result, accumUpdates, taskInfo, taskMetrics)

->def receive

->case completion @ CompletionEvent(task, reason, _, _, taskInfo, taskMetrics)

->dagScheduler.handleTaskCompletion(completion) --Responds to a task finishing.

//This is called inside the event loop so it assumes that it can modify the scheduler's internal state

->event.reason match => case Success => --task结果是成功的

->if (event.accumUpdates != null) --如果是状态更新

->event.accumUpdates.foreach { case (id, partialValue) --更新状态

->listenerBus.post(SparkListenerTaskEnd(...)) --通知listener任务结束

->stage.pendingTasks -= task

->task match {

->case rt: ResultTask[_, _] => --如果是ResultTask

->if (job.numFinished == job.numPartitions) --如果所有的分片数据都完成

->markStageAsFinished(stage) --那么这个Stage就是结束了

->runningStages -= stage --从running状态中删除

->listenerBus.post(SparkListenerStageCompleted(stage.latestInfo)) --通知Stage结束

->cleanupStateForJobAndIndependentStages(job) --清除依赖关系

->val registeredStages = jobIdToStageIds.get(job.jobId) --找到这个job对应的所有Stage（job对应多个stage）

->stageIdToStage.filterKeys(stageId => registeredStages.get.contains(stageId)).foreach

//查找所有stage，找出注册了依赖于这个job所在stage的。

->case (stageId, stage) =>

->val jobSet = stage.jobIds

->if (!jobSet.contains(job.jobId)) --这些存在依赖的stage中，应该包含这个job的注册

->logError("Job %d not registered for stage %d even though that stage was registered for the job"

.format(job.jobId, stageId))

->if (jobSet.isEmpty) // no other job needs this stage 没有其他job了，这个依赖的stage也结束了。

-> removeStage(stageId) --删除stage

->listenerBus.post(SparkListenerJobEnd(job.jobId, JobSucceeded)) --通知job结束

->job.listener.taskSucceeded(rt.outputId, event.result) --通知task成功

->case smt: ShuffleMapTask => --如果是shuffleMapTask

->if (runningStages.contains(stage) && stage.pendingTasks.isEmpty) --如果stage的所有task都完成

->markStageAsFinished(stage) --标志stage完成

->listenerBus.post(SparkListenerStageCompleted(stage.latestInfo)) --通知stage完成

->logInfo("looking for newly runnable stages") --stage完成了，意味着依赖这个stage的stage可以执行了

->mapOutputTracker.registerMapOutputs --（？用处不明）

->clearCacheLocs()

->if (stage.outputLocs.exists(_ == Nil)) // Some tasks had failed; let's resubmit this stage

->submitStage(stage)

->else

->val newlyRunnable = new ArrayBuffer[Stage]

-> for (stage <- waitingStages if getMissingParentStages(stage) == Nil) 如果一个stage没有依赖其他stage

->newlyRunnable += stage --这个没有依赖的stage就可以执行了

->waitingStages --= newlyRunnable

->runningStages ++= newlyRunnable

->for {stage <- newlyRunnable.sortBy(_.id); jobId <- activeJobForStage(stage)}

->submitMissingTasks(stage, jobId) --将这些没有依赖的stage的所有active job提交执行

->submitWaitingStages() --//Check for waiting or failed stages which are now eligible for resubmission.

//Ordinarily run on every iteration of the event loop. 每个事件处理都会触发去检查waiting状态的stage是否能够执行了。

->logTrace("Checking for newly runnable parent stages")

->waitingStages.clear()

->for (stage <- waitingStagesCopy.sortBy(_.jobId))

->submitStage(stage)

========================end================================

来自为知笔记(Wiz)

spark 笔记 13: 再看DAGScheduler，stage状态更新流程的更多相关文章

线性代数笔记13——Ax=b的通解
关于最简行阶梯矩阵和矩阵秩,可参考<线性代数笔记7——再看行列式与矩阵> 召唤一个方程Ax = b: 3个方程4个变量,方程组有无数解,现在要关注的是b1b2b3之间满足什么条件时方程组有 ...
spark 笔记 15: ShuffleManager，shuffle map两端的stage/task的桥梁
无论是Hadoop还是spark,shuffle操作都是决定其性能的重要因素.在不能减少shuffle的情况下,使用一个好的shuffle管理器也是优化性能的重要手段. ShuffleManager的 ...
Android菜鸟的成长笔记（17）—— 再看Android中的Unbounded Service
原文:Android菜鸟的成长笔记(17)-- 再看Android中的Unbounded Service 前面已经写过关于startService(Unbounded Service)的一篇文章:&l ...
Spark源码分析之三：Stage划分
继上篇<Spark源码分析之Job的调度模型与运行反馈>之后,我们继续来看第二阶段--Stage划分. Stage划分的大体流程如下图所示: 前面提到,对于JobSubmitted事件,我 ...
spark作业运行过程之--DAGScheduler
DAGScheduler--stage划分和创建以及stage的提交本篇,我会从一次spark作业的运行为切入点,将spark运行过程中涉及到的各个步骤,包括DAG图的划分,任务集的创建,资源分配, ...
spark 笔记 2： Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing
http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf ucb关于spark的论文,对spark中核心组件RDD最原始.本质的理解, ...
【原】Spark中Job如何划分为Stage
版权声明:本文为原创文章,未经允许不得转载. 复习内容: Spark中Job的提交 http://www.cnblogs.com/yourarebest/p/5342404.html 1.Spark中 ...
并发编程学习笔记(13)----ConcurrentLinkedQueue(非阻塞队列)和BlockingQueue(阻塞队列)原理
· 在并发编程中,我们有时候会需要使用到线程安全的队列,而在Java中如果我们需要实现队列可以有两种方式,一种是阻塞式队列.另一种是非阻塞式的队列,阻塞式队列采用锁来实现,而非阻塞式队列则是采用cas ...
spark笔记环境配置
spark笔记 spark简介 saprk 有六个核心组件: SparkCore.SparkSQL.SparkStreaming.StructedStreaming.MLlib,Graphx Spar ...

随机推荐

Linux学习篇之OpenKM的安装（汉化）
OpenKM是一个开放源代码的电子文档管理系统,它的特点是可用于大型公司或是中小企业, 适应性比较强. 并且在知识管理方面的加工,提供了更加灵活和成本较低的替代应用,下面讲一下搭建方法. 一.以下都是 ...
PAT Basic 1016 部分A+B (15 分)
正整数 A 的“DA(为 1 位整数)部分”定义为由 A 中所有 DA 组成的新整数 PA.例如:给定 8,DA=6,则 A 的“6 部分”PA 是 66,因为 A 中有 ...
Spring-data-jpa操作数据库环境配置
application.xml文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns=&q ...
第二章 Vue快速入门-- 23 品牌案例-根据关键字实现数组的过滤
<!DOCTYPE html> <html lang="en"> <head> <meta charset="utf-8&quo ...
使用RedisTemplate的操作类访问Redis(转载)
原文地址:http://www.cnblogs.com/luochengqiuse/p/4641256.html private ValueOperations<K, V> valueOp ...
UML（Rational Rose）安装教程【载百度经验】
---恢复内容开始--- Win7安装rational rose2007教程在UML建模的众多工具中,IBM公司的rational rose建模工具可以说是最好用的建模工具了.哪我们又该如何在win ...
SAP的春天回来么？
作为一个财务出身的码农,经常会关注在财务和编程的交叉领域,新兴的细分领域有:德勤的财务机器人,RPA机器人,FINTECH等等. 但是非要说一个便是sap.如果呈把用友成立之年算作sap元年,1988 ...
32.把数组排成最小的数（python）
题目描述输入一个正整数数组,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个.例如输入数组{3,32,321},则打印出这三个数字能排成的最小数字为321323. # -*- ...
static后期静态绑定
先说一下__CLASS__,get_class() , get_called_class() 区别: __CLASS__获取当前的类名, get_class()与上面一样,都是获取当前的类名, ge ...
计算几何点对处理 #345 (Div. 2) C. Watchmen
题目:给你n(<=2*1e5)个点,求其中有多少个点对之间的连线向量平行坐标轴: #include <iostream> #include <cstdio> #inclu ...

spark 笔记 13: 再看DAGScheduler，stage状态更新流程

spark 笔记 13: 再看DAGScheduler，stage状态更新流程的更多相关文章

随机推荐

热门专题