小记--------spark内核架构原理分析

首先会将jar包上传到机器（服务器上）

1.在这台机器上会产生一个Application（也就是自己的spark程序）

2.然后通过spark-submit(shell) 提交程序的时候

2.1会启动一个driver（进程）：spark-submit使用我们之前一直使用的那种提交模式去提交的时候，我们之前的提交模式，叫做Standalone，其实会通过反射的方式，创建和构造一个DriverActor进程出来

driver进程会执行我们的Application应用程序（也就是我们自己编写的代码）

我们在编写的所有spark应用程序的第一行：都是下构造sparkconf和SparkContext

2.1.1SparkContext：在初始化的时候，做的最重要的两件事就是构造出来DAGScheduler和TaskScheduler

2.1.1.2DAGScheduler

2.1.1.2.1然后开始继续执行我们自己编写的代码。

每当执行到一个action算子就会生成一个job。并且把这个job提交给DAGScheduler

2.1.1.2.2而此时DAGScheduler会将job划分为多个stage，然后每个stage创建一个Taskset

2.1.1.2.3并且会把Taskset提交到 TaskScheduler上

2.1.1.2.4而TaskScheduler会把Taskset里的每一个task提交到Executor上

2.1.1.2.5此时的Executor中会有一个线程池。当Executor每接收到一个task时，都会用TaskRunner来封装task，然后从线程池里取出一个线程，执行这个task

TaskRunner：会将我们编写的代码，也就是执行的算子以及函数，拷贝、反序列化，然后执行task

Task有两种：ShuffleMapTask和ResultTask，只有最后一个stage是ResultTask,之前的所有stage都是ShuffleMapTask。

所以最后整个spark应用程序的执行，就是stage分批次作为taskset提交到Executor执行，每个task针对RDD的一个partition，并行的执行我们定义的算子和函数。以此类推知道所有操作执行完成为止

2.1.1.1TaskScheduler（有自己的后台进程）

TaskScheduler实际上，会负责通过它对应的一个后台进程，去连接Master

然后向Master注册Application

2.1.1.1.1Master

当master接收到注册的Application时，会使用自己的资源调度算法，在spark集群的worker上，为这个application启动多个Executor

2.1.1.1.2Worker

而此时Worker会为Application启动Executor（进程）

2.1.1.1.3Executor

而当executor启动之后，会自己反向注册到TaskScheduler上去

当所有的Executor都反向注册到Driver上之后，Driver结束SparkContext初始化，

小记--------spark内核架构原理分析的更多相关文章

小记--------spark的worker原理分析及源码分析
springMVC课程笔记（一）springMVC架构原理分析
一.springMVC架构原理分析 1.先搞清楚什么是springMVC: 其实springMVC是spring框架中的一个模块,springMVC和spring无需通过中间整合层整合,SpringM ...
Spark之Task原理分析
在Spark中,一个应用程序要想被执行,肯定要经过以下的步骤: 从这个路线得知,最终一个job是依赖于分布在集群不同节点中的task,通过并行或者并发的运行来完成真正的工作.由此可见 ...
11、spark内核架构剖析与宽窄依赖
一.内核剖析 1.内核模块 1.Application 2.spark-submit 3.Driver 4.SparkContext 5.Master 6.Worker 7.Executor 8.Jo ...
01、Spar内核架构原理
附件列表
Spark- Spark内核架构原理和Spark架构深度剖析
Spark内核架构原理 1.Driver 选spark节点之一,提交我们编写的spark程序,开启一个Driver进程,执行我们的Application应用程序,也就是我们自己编写的代码.Driver ...
大数据体系概览Spark、Spark核心原理、架构原理、Spark特点
大数据体系概览Spark.Spark核心原理.架构原理.Spark特点大数据体系概览(Spark的地位) 什么是Spark? Spark整体架构 Spark的特点 Spark核心原理 Spark架构 ...
Spark运行时的内核架构以及架构思考
一: Spark内核架构 1,Drive是运行程序的时候有main方法,并且会创建SparkContext对象,是程序运行调度的中心,向Master注册程序,然后Master分配资源. 应用程序: A ...
（升级版）Spark从入门到精通（Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端）
本课程主要讲解目前大数据领域最热门.最火爆.最有前景的技术——Spark.在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战.课 ...

随机推荐

webpack官方文档分析（二）：概念
1.概念 webpack的核心是将JavaScript应用程序的静态捆绑模块.当webpack处理您的应用程序时,它会在内部构建一个依赖关系图,它映射您的项目所需的每个模块并生成一个或多个包. 从版本 ...
Java并发之CAS的三大问题
在Java并发包中有一些并发框架也使用了自旋CAS的方式实现了原子操作,比如:LinkedTransferQueue类的Xfer方法.CAS虽然很高效的解决了原子操作,但是CAS仍然存在三大问题:AB ...
微信小程序_(校园视)开发视频的展示页_下
微信小程序_(校园视) 开发用户注册登陆传送门微信小程序_(校园视) 开发上传视频业务传送门微信小程序_(校园视) 开发视频的展示页-上传送门微信小程序_(校园视) 开发视频的展示页-下 ...
C++入门经典-例7.2-利用构造函数初始化成员变量
1:在创建对象时,程序自动调用构造函数.同一个类中可以有多个构造函数,通过这样的形式创建一个CPerson对象,例如: CPerson p1(0,"jack",22,7000); ...
laravel 中first和find区别(总结一)
检索单个模型/集合除了从指定的数据表检索所有记录外,你也可以通过 find 或 first 方法来检索单条记录.这些方法不是返回一组模型,而是返回一个模型实例: // 通过主键取回一个模型... $ ...
layui 表单遇到的小问题
select中的option 居中显示 /*select显示的option居中*/ /*.layui-select-title input{ text-align: center; }*/ /*opt ...
OGG 从Oracle备库同步数据至kafka
OGG 从Oracle备库同步数据至kafka Table of Contents 1. 目的 2. 环境及规划 3. 安装配置JDK 3.1. 安装jdk 3.2. 配置环境变量 4. 安装Data ...
javascript之日期对象（Date）
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
数据库开源框架之litepal
主页: [https://github.com/LitePalFramework/LitePal](https://github.com/LitePalFramework/LitePal) 中文文档地 ...
ElementTree 无法处理中文
ElementTree.fromstring() 导入xml格式时,是可以选择解析parser的编码的,并且它解析出来的node类型是严谨且严格的,不会自己内部全部转换成str,比如 9.87 ...

小记--------spark内核架构原理分析

小记--------spark内核架构原理分析的更多相关文章

随机推荐

热门专题