版权声明:本文为原创文章,未经允许不得转载。
复习内容:
Spark中Task的提交源码解读 http://www.cnblogs.com/yourarebest/p/5423906.html

SchedulerBackend是一个trait,它配合TaskSchedulerImpl共同完成Task调度、执行、资源的分配等。它的子类如下所示,不同的子类对应的不同Spark不同的资源分配调度。详见图1。

图1 SchedulerBackend子类继承图

Spark中不同(集群)模式进行资源的分配是通过调用backend.reviveOffers()方法来给Task分配资源的,其调度子类与其负责的运行模式如下所示:
LocalBackend
(1)本地单线程运行模式,master形如local
(2)本地多线程运行模式,匹配local[N]和Local[*],
(3)匹配local[*, M]和local[N, M]
SparkDeploySchedulerBackend
(4)匹配Spark Standalone运行模式
(5)匹配local-cluster运行模式即伪分布模式
YarnClusterSchedulerBackend
(6)"yarn-standalone"或"yarn-cluster"运行模式,
(7)yarn-client运行模式
CoarseMesosSchedulerBackend(粗粒度)和MesosSchedulerBackend(细粒度)
(8)匹配Mesos运行模式,mesos有粗粒度和细粒度两种调度模式。
补充:细粒度模式目前仅支持Mesos。
粗粒度调度模式中,每个Executor在获得系统资源后,就长期拥有,直到应用程序退出才释放资源。优点:减少了资源调度的时间开销,缺点:所分配的资源被某个应用长期占有,造成资源的浪费。
细粒度调度模式中,资源是根据任务的需求动态调度的,任务完成后就还给Mesos,所以不存在资源浪费的问题,但调度延迟较大。

1.LocalBackend

调用远程的一个引用申请资源,该远程引用已在start方法中赋值

override def reviveOffers() {
localEndpoint.send(ReviveOffers)
}

LocalBackend收到远程的ReviveOffers消息在receive方法中进行消息的匹配,进行资源的分配,如下所示:

override def receive: PartialFunction[Any, Unit] = {
case ReviveOffers =>
reviveOffers()详见(1)
case StatusUpdate(taskId, state, serializedData) =>
scheduler.statusUpdate(taskId, state, serializedData)
if (TaskState.isFinished(state)) {
freeCores += scheduler.CPUS_PER_TASK
reviveOffers()
}
case KillTask(taskId, interruptThread) =>
executor.killTask(taskId, interruptThread)
}

(1)方法 reviveOffers()如下所示:

def reviveOffers() {
val offers = Seq(new WorkerOffer(localExecutorId, localExecutorHostname, freeCores))
for (task <- scheduler.resourceOffers(offers).flatten) {
freeCores -= scheduler.CPUS_PER_TASK
//在executor上创建Task
executor.launchTask(executorBackend, taskId = task.taskId, attemptNumber = task.attemptNumber,
task.name, task.serializedTask)
}
}

2.SparkDeploySchedulerBackend

由图1 SchedulerBackend子类继承我们知道SparkDeploySchedulerBackend是类CoarseGrainedSchedulerBackend的子类,属于粗粒度调度模式,类CoarseGrainedSchedulerBackend的子类的调度都是通过它的reviveOffers方法来完成的,因为都属于粗粒度调度模式。
远程引用申请资源

override def reviveOffers() {
driverEndpoint.send(ReviveOffers)
}

同样在receive方法匹配ReviveOffers 消息,调用方法 makeOffers()

override def receive: PartialFunction[Any, Unit] = {
case ReviveOffers =>
makeOffers()详见(1)

(1)makeOffers()方法如下所示

private def makeOffers() {
//过滤掉正在kill的executor
val activeExecutors = executorDataMap.filterKeys(!executorsPendingToRemove.contains(_))
val workOffers = activeExecutors.map { case (id, executorData) =>
new WorkerOffer(id, executorData.executorHost, executorData.freeCores)
}.toSeq
//创建tasks
launchTasks(scheduler.resourceOffers(workOffers))详见(2)(3)
}

(2)scheduler.resourceOffers(workOffers)方法如下所示,TaskScheduleImpl调用提供slaves上的资源。我们通过按照激活的task set的优先级。我们以循环的方式将tasks均匀分配到节点上

def resourceOffers(offers: Seq[WorkerOffer]): Seq[Seq[TaskDescription]] = synchronized {
var newExecAvail = false
//对于每一个Executor进行如下操作,主要进行slave的hostname与executor的映射
for (o <- offers) {
executorIdToHost(o.executorId) = o.host
activeExecutorIds += o.executorId
if (!executorsByHost.contains(o.host)) {
executorsByHost(o.host) = new HashSetString
executorAdded(o.executorId, o.host)
newExecAvail = true
}
for (rack <- getRackForHost(o.host)) {
hostsByRack.getOrElseUpdate(rack, new HashSetString) += o.host
}
}
//随机shuffle操作避免将tasks分配到同样的一批workers上
val shuffledOffers = Random.shuffle(offers)
// Build a list of tasks to assign to each worker.
val tasks = shuffledOffers.map(o => new ArrayBufferTaskDescription)
val availableCpus = shuffledOffers.map(o => o.cores).toArray
//根据调度策略获取TaskSetManage的调度顺序
val sortedTaskSets = rootPool.getSortedTaskSetQueue
for (taskSet <- sortedTaskSets) {
logDebug("parentName: %s, name: %s, runningTasks: %s".format(
taskSet.parent.name, taskSet.name, taskSet.runningTasks))
if (newExecAvail) {
taskSet.executorAdded()
}
}
//根据调度策略依次得到TaskSet,
//在节点上尝试5种Locality,PROCESS_LOCAL, NODE_LOCAL, NO_PREF, RACK_LOCAL, ANY
//以最快的速度执行task
var launchedTask = false
for (taskSet <- sortedTaskSets; maxLocality <- taskSet.myLocalityLevels) {
do {
launchedTask = resourceOfferSingleTaskSet(
taskSet, maxLocality, shuffledOffers, availableCpus, tasks)
} while (launchedTask)
}
if (tasks.size > 0) {
hasLaunchedTask = true
}
return tasks
}

(3)launchTasks方法如下所示

private def launchTasks(tasks: Seq[Seq[TaskDescription]]) {
for (task <- tasks.flatten) {
//序列化task
val serializedTask = ser.serialize(task)
if (serializedTask.limit >= akkaFrameSize - AkkaUtils.reservedSizeBytes) {
scheduler.taskIdToTaskSetManager.get(task.taskId).foreach { taskSetMgr =>
try {
var msg = "Serialized task %s:%d was %d bytes, which exceeds max allowed: " +
"spark.akka.frameSize (%d bytes) - reserved (%d bytes). Consider increasing " +
"spark.akka.frameSize or using broadcast variables for large values."
msg = msg.format(task.taskId, task.index, serializedTask.limit, akkaFrameSize,
AkkaUtils.reservedSizeBytes)
taskSetMgr.abort(msg)
} catch {
case e: Exception => logError("Exception in error callback", e)
}
}
}
else {
val executorData = executorDataMap(task.executorId)
executorData.freeCores -= scheduler.CPUS_PER_TASK
//类CoarseGrainedExecutorBackend在Executor上反序列化task并完成task的创建
executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))
}
}
}

3.MesosSchedulerBackend

Mesos细粒度调度模式时通过Mesos中的类MesosSchedulerDriver来完成调度,有兴趣的读者可以看一下。这里就不介绍了

【原】Spark不同运行模式下资源分配源码解读的更多相关文章

  1. Spark的 运行模式详解

    Spark的运行模式是多种多样的,那么在这篇博客中谈一下Spark的运行模式 一:Spark On Local 此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将S ...

  2. Unity非运行模式下实现动画播放/回退工具

    实现效果 核心功能 支持选定模型(带Animator)在非运行模式下,播放/暂停/停止动作. 支持动作单帧前进,单帧回退(帧时间默认0.05f,可以代码设置). 支持滚动条拖拽,将动作调整到指定时间. ...

  3. 【原】Spark中Job的提交源码解读

    版权声明:本文为原创文章,未经允许不得转载. Spark程序程序job的运行是通过actions算子触发的,每一个action算子其实是一个runJob方法的运行,详见文章 SparkContex源码 ...

  4. spark on yarn模式下配置spark-sql访问hive元数据

    spark on yarn模式下配置spark-sql访问hive元数据 目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive ...

  5. spark 在yarn模式下提交作业

    1.spark在yarn模式下提交作业需要启动hdfs集群和yarn,具体操作参照:hadoop 完全分布式集群搭建 2.spark需要配置yarn和hadoop的参数目录 将spark/conf/目 ...

  6. 【原】SparkContex源码解读(二)

    版权声明:本文为原创文章,未经允许不得转载. 继续前一篇的内容.前一篇内容为: SparkContex源码解读(一)http://www.cnblogs.com/yourarebest/p/53266 ...

  7. Spark jdbc postgresql数据库连接和写入操作源码解读

    概述:Spark postgresql jdbc 数据库连接和写入操作源码解读,详细记录了SparkSQL对数据库的操作,通过java程序,在本地开发和运行.整体为,Spark建立数据库连接,读取数据 ...

  8. AFNetworking 3.0 源码解读 总结(干货)(下)

    承接上一篇AFNetworking 3.0 源码解读 总结(干货)(上) 21.网络服务类型NSURLRequestNetworkServiceType 示例代码: typedef NS_ENUM(N ...

  9. Spark Streaming揭秘 Day23 启动关闭源码图解

    Spark Streaming揭秘 Day23 启动关闭源码图解 今天主要分析一下SparkStreaming的启动和关闭过程. 从Demo程序出发,主要聚焦在两段代码: 启动代码: 关闭代码: 启动 ...

随机推荐

  1. err: exp-00056 rra-12154 exp-00000

    一直用的是win7系统+oracle11g r1 server端(后简称r1). 由于工作需要装了oracle11g r2 client端(后简称r2). 在装r2之前,r1的导出exp是没有问题的. ...

  2. Yii表单模型使用及以数组形式提交表单数据

    按Yii文档里的描述,Yii在处理表单的一般过程是: 创建表单对应的模型类,设置字段验证规则 创建表单提交对应的action,处理提交的内容 在视图中创建表单form 在刚刚的一个小项目里,想使用aj ...

  3. Windows系统下Oracle数据库冷备

    一.背景: 具体的场景是数据库不是普通的OLTP系统,更像是OLAP系统,数据的更新频率很低,在noarchivelog 模式下运行,实时性要求低,但是数据只有一份不能弄丢,需要应付磁盘损坏等情况.这 ...

  4. Vijos P1061 迎春舞会之三人组舞 DP

    题目链接:https://vijos.org/p/1061 n个人选出3*m人,排成m组,每组3人. 站的队形——较矮的2个人站两侧,最高的站中间. 从对称学角度来欣赏,左右两个人的身高越接近,则这一 ...

  5. C语言中宏定义(#define)时do{}while(0)的价值

    最近在新公司的代码中发现到处用到do{...}while(0),google了一下,发现Stack Overflow上早有很多讨论,总结了一下讨论,加上自己的理解,do{...}while(0)的价值 ...

  6. Hibernate各种主键生成策略2

    先来看看主键映射的标签: <id   (1)name="propertyName"   (2)column="column_name" (3)type=& ...

  7. FatFsVersion0.01源码分析

    目录 一.API的函数功能简述 二.FATFS主要数据结构 1.FAT32文件系统的结构 2.FATFS主要数据结构 ①   FATFS ②   DIR ③  FIL ④  FILINFO ⑤  wi ...

  8. 【filter】springmvc web.xml

    1.filter用于拦截用户请求,在服务器作出响应前,可以在拦截后修改request和response,这样实现很多开发者想得到的功能. 2.filter实现 ×编写一个继承Filter接口的类 ×在 ...

  9. Elasticsearch基础概念理解

    熟悉ES中的几个关键概念: 节点(Node):一个elasticsearch运行的实例,其实就是一个java进程.一般情况下,一台机器运行在一台机器上. 集群(Cluster): 好几个有相同集群名称 ...

  10. JavaScript: top对象

    一般的JS书里都会在讲框架集的时候讲top,这会让人误解,认为top对象只是代表框架集,其实top的含义应该是说浏览器直接包含的那一个页面对象,也就是说如果你有一个页面被其他页面以iframe的方式包 ...