【Spark2.0源码学习】-8.SparkContext与Application介绍

在前面的内容，我们针对于RpcEndpoint启动以及RpcEndpoint消息处理机制进行了详细的介绍，在我们的大脑里，基本上可以构建Spark各节点的模样。接下来的章节将会从Spark如何从业务代码分解为Spark的任务，并最终调度这些任务进行详细的介绍。

前面针对于Client启动过程以及Driver进行了详细的描述，下面我们根据用户代码中的SparkContext这个API类进行解读，该类Spark用户代码执行的基础，后续我们会陆续介绍，下面针对于SparkContext以及SparkContext运行过程中产生的Application进行介绍。

一、SparkContext创建过程

SparkContext在新建时

内部创建一个SparkEnv，SparkEnv内部创建一个RpcEnv
- RpcEnv内部创建并注册一个MapOutputTrackerMasterEndpoint（该Endpoint暂不介绍）
接着创建DAGScheduler，TaskSchedulerImpl，SchedulerBackend
- TaskSchedulerImpl创建时创建SchedulableBuilder，SchedulableBuilder根据类型分为FIFOSchedulableBuilder,FairSchedulableBuilder两类
最后启动TaskSchedulerImpl，TaskSchedulerImpl启动SchedulerBackend
- SchedulerBackend启动时创建ApplicationDescription，DriverEndpoint, StandloneAppClient
- StandloneAppClient内部包括一个ClientEndpoint

二、SparkContext简易结构与交互关系

SparkContext：是用户Spark执行任务的上下文，用户程序内部使用Spark提供的Api直接或间接创建一个SparkContext
SparkEnv：用户执行的环境信息，包括通信相关的端点
RpcEnv：SparkContext中远程通信环境
ApplicationDescription：应用程序描述信息，主要包含appName, maxCores, memoryPerExecutorMB, coresPerExecutor, Command（
CoarseGrainedExecutorBackend）, appUiUrl等
ClientEndpoint：客户端端点，启动后向Master发起注册RegisterApplication请求
Master：接受RegisterApplication请求后，进行Worker资源分配，并向分配的资源发起LaunchExecutor指令
Worker：接受LaunchExecutor指令后，运行ExecutorRunner
ExecutorRunner：运行applicationDescription的Command命令，最终Executor，同时向DriverEndpoint注册Executor信息

三、Master对Application资源分配

当Master接受Driver的RegisterApplication请求后，放入waitingDrivers队列中，在同一调度中进行资源分配，分配过程如下：

waitingApps与aliveWorkers进行资源匹配

如果waitingApp配置了app.desc.coresPerExecutor：
- 轮询所有有效可分配的worker，每次分配一个executor，executor的核数为minCoresPerExecutor(app.desc.coresPerExecutor)，直到不存在有效可分配资源或者app依赖的资源已全部被分配
如果waitingApp没有配置app.desc.coresPerExecutor：
- 轮询所有有效可分配的worker，每个worker分配一个executor，executor的核数为从minCoresPerExecutor(为固定值1)开始递增，直到不存在有效可分配资源或者app依赖的资源已全部被分配
其中有效可分配worker定义为满足一次资源分配的worker:
- cores满足：usableWorkers(pos).coresFree - assignedCores(pos) >= minCoresPerExecutor，
- memory满足(如果是新的Executor)：usableWorkers(pos).memoryFree - assignedExecutors(pos) * memoryPerExecutor >= memoryPerExecutor
注意：Master针对于applicationInfo进行资源分配时，只有存在有效可用的资源就直接分配，而分配剩余的app.coresLeft则等下一次再进行分配

四、Worker创建Executor

（图解：橙色组件是Endpoint组件）

Worker启动Executor

在Worker的tempDir下面创建application以及executor的目录，并chmod700操作权限
创建并启动ExecutorRunner进行Executor的创建
向master发送Executor的状态情况

ExecutorRnner

新线程【ExecutorRunner for [executorId]】读取ApplicationDescription将其中Command转化为本地的Command命令
调用Command并将日志输出至executor目录下的stdout,stderr日志文件中，Command对应的java类为CoarseGrainedExecutorBackend

CoarseGrainedExecutorBackend

创建一个SparkEnv，创建ExecutorEndpoint(CoarseGrainedExecutorBackend)，以及WorkerWatcher
ExecutorEndpoint创建并启动后，向DriverEndpoint发送RegisterExecutor请求并等待返回
DriverEndpoint处理RegisterExecutor请求，返回ExecutorEndpointRegister的结果
如果注册成功，ExecutorEndpoint内部再创建Executor的处理对象

至此，Spark运行任务的容器框架就搭建完成

【Spark2.0源码学习】-8.SparkContext与Application介绍的更多相关文章

【Spark2.0源码学习】-3.Endpoint模型介绍
Spark作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分. 一.组件概览对源码分析,对于设计思路理解如下: RpcEndpoint: ...
【Spark2.0源码学习】-1.概述
Spark作为当前主流的分布式计算框架,其高效性.通用性.易用性使其得到广泛的关注,本系列博客不会介绍其原理.安装与使用相关知识,将会从源码角度进行深度分析,理解其背后的设计精髓,以便后续 ...
spark2.0源码学习
[Spark2.0源码学习]-1.概述 [Spark2.0源码学习]-2.一切从脚本说起 [Spark2.0源码学习]-3.Endpoint模型介绍 [Spark2.0源码学习]-4.Master启动 ...
【Spark2.0源码学习】-2.一切从脚本说起
从脚本说起在看源码之前,我们一般会看相关脚本了解其初始化信息以及Bootstrap类,Spark也不例外,而Spark我们启动三端使用的脚本如下: %SPARK_HOME%/sbin/st ...
【Spark2.0源码学习】-6.Client启动
Client作为Endpoint的具体实例,下面我们介绍一下Client启动以及OnStart指令后的额外工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/bin/jav ...
【Spark2.0源码学习】-4.Master启动
Master作为Endpoint的具体实例,下面我们介绍一下Master启动以及OnStart指令后的相关工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/ ...
【Spark2.0源码学习】-5.Worker启动
Worker作为Endpoint的具体实例,下面我们介绍一下Worker启动以及OnStart指令后的额外工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/ ...
【Spark2.0源码学习】-9.Job提交与Task的拆分
在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用 ...
【Spark2.0源码学习】-10.Task执行与回馈
通过上一节内容,DriverEndpoint最终生成多个可执行的TaskDescription对象,并向各个ExecutorEndpoint发送LaunchTask指令,本节内容将关注Exe ...

随机推荐

[转]vs2010用 boost.python 编译c++类库供python调用
转自:http://blog.csdn.net/wyljz/article/details/6307952 VS2010建立一个空的DLL 项目属性中配置如下链接器里的附加库目录加入,python/ ...
redis 5.0.3 讲解、集群搭建
REDIS 一 .redis 介绍不管你是从事Python.Java.Go.PHP.Ruby等等... Redis都应该是一个比较熟悉的中间件.而大部分经常写业务代码的程序员,实际工作中或许只用到了 ...
Java Web参考资料
Maven Maven学习 Eclipse 使用Maven 构建Web项目的最佳方式:总的来说就是先要修改项目的Project facets来更改Java版本.Servlet版本. 错误Cannot ...
vue 项目全局修改element-ui的样式
引入了element-ui,但是和我们自己的样式颜色有很大的不同, 修改例子:在src文件下创建 element-var.scss,代码如下 $--color-primary: yellow; /* ...
01-Introspector内省机制
在java领域编程中,内省机制相当的不错,可以省去我们程序员很多的不必要的代码比如说:在jdbc工具类我们可以将ResultSet结果集待到 javabean对象中将http请求报文的数据转换 ...
normalization正规化
用到sklearn模块 from sklearn import preprocessing用preprocessing.scale正规化 print(preprocessing.scale(a))
解决idea下载依赖包慢到出奇
右键项目选中maven选项,然后选择“open settings.xml”或者 “create settings.xml”,然后把如下代码粘贴进去就可以了.重启IDE. <?xml versio ...
32. linux下oracle数据库定时备份
这里以oradatabak.sh(里面的内容要根据实际修改)脚本放在/u01/11g/datapump下为例: #1.添加脚本执行权限 chmod +x /u01/11g/datapump/orada ...
django session 的简单操作
#!SESSION_SAVE_EVERY_REQUEST = True 设置根据最后一次操作设置登录超时时间#!SESSION_EXPIRE_AT_BROWSER_CLOSE = True 设置是否关 ...
MYSQL性能优化（3）
优化数据库对象 1.优化表的数据类型 select * from tbl1 procedure analyse(16,256) ,会输出优化建议,结合情况优化 2.拆分表(仅Myisam) 2.1 纵 ...

【Spark2.0源码学习】-8.SparkContext与Application介绍

【Spark2.0源码学习】-8.SparkContext与Application介绍的更多相关文章

随机推荐

热门专题