Spark运行时的内核架构以及架构思考

一： Spark内核架构

1，Drive是运行程序的时候有main方法，并且会创建SparkContext对象，是程序运行调度的中心，向Master注册程序，然后Master分配资源。

应用程序： Application = Driver（驱动程序） + Executor（执行程序）

Driver部分的代码：主要是SparkContext +SparkConf

Application 的main 方法、创建sparkcontext、这样环境对象 sparkcontext 创建时要有程序的高层调度器DAGScheduler 分为几个阶段、底层调度器TasKScheduler 一个阶段的任务处理、SchedulerBackend向Master 注册程序、分资源、根据 job 许多RDD 从后向前倒推如宽依赖划分不同的stage 然后提交给底层调度器TaskScheduler 然后根据数据的本地性发送到 Excutor 去执行，如出问题向 Drive 部分汇报完成关闭创建对象

Executor 是运行在Worker所在节点上，为当前应用程序而开启的一个JVM进程里边的一个对象，这个对象负责具体Task的运行。这个JVM进程里面是通过线程池并发每个线程运行一个Task任务，完成后进行线程复用。

默认情况在一个节点上只为当前程序开启一个 Excutor。

Cluster Manager（集群中获取资源的Web服务）

spark Aplication 运行不依赖 Cluster Manager

可插拔的资源方式粗粒度的

Worker 操作代码的节点，不运行程序的代码，管理当前节点的资源（cup，Memory），并接收 Master指令来分配具体的计算资源的Excutor（在新的进程中分配）

并通过ExcutorRunner 来具体启动一个新进程，进程里面有Executor。

在此可以做一个比喻：Worker是工头，Cluster Manager：是项目经理

Master：是Boss

worker 不会汇报当前信息（发心跳）给 Master

故障时候发的心跳只有 workid

Master 分配时就知道资源

Job 包含一系列的task 并行计算一般由action 触发 action不会产生RDD

action前面的是RDD ,前面的RDD是Transformation级别的是lazy的执行方式，他是从后往前推，如果后面的RDD与前面的RDD是回溯的话是窄依赖（如果父RDD的一个Partition被一个子RDD的Partion所使用的话就是窄依赖，否则的话就是宽依赖，如果子RDD中的Partition对父RDD的Partition依赖的数量不会随着数据量规模的改变而改变的话就是窄依赖，否则的话就是宽依赖）的话就在内存中进行迭代。宽依赖导致stage的划分。

Spark快绝不是因为基于内存，最基本的是他的调度，然后是他的容错

如果宽依赖

依赖构成了 DAG ，DAG导致宽依赖

stage 是内存迭代当然也可以磁盘的迭代，如有100W 个数据分片就有 100W 个task任务

stage内部：计算逻辑一样只是算的数据不一样而已

任务本身计算数据分片，一个pation是否精的等于一个 block大小？

默认情况下是一个数据分片 128MB 最后一个记录跨2个 block

怎么分配资源:通过spark-env.sh和spark-defaults.sh

Scheduling:

Dependency Types :

Event Flow :

长按识别关注我们，每天都有技术和精彩内容分享哦！~

Spark运行时的内核架构以及架构思考的更多相关文章

ILBC 运行时（ILBC Runtime）架构
本文是 VMBC / D# 项目的系列文章, 有关 VMBC / D# , 见 <我发起并创立了一个 VMBC 的子项目 D#>(以下简称 <D#>) https:// ...
spark运行时加载配置文件（hive，hdfs）
文章为转载,如有版权问题,请联系,谢谢! 转自:https://blog.csdn.net/piduzi/article/details/81636253 适合场景:在运行时才确定用哪个数据源 imp ...
Android数据存储之Android 6.0运行时权限下文件存储的思考
前言: 在我们做App开发的过程中基本上都会用到文件存储,所以文件存储对于我们来说是相当熟悉了,不过自从Android 6.0发布之后,基于运行时权限机制访问外置sdcard是需要动态申请权限,所以以 ...
spark运行时出现Neither spark.yarn.jars nor spark.yarn.archive is set错误的解决办法（图文详解）
不多说,直接上干货! 福利 => 每天都推送欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 ...
Spark on Yarn运行时加载的jar包
spark on yarn运行时会加载的jar包有如下: spark-submit中指定的--jars $SPARK_HOME/jars下的jar包 yarn提供的jar包 spark-submit通 ...
【转载】Spark运行架构
1. Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个 ...
Spark运行架构
http://blog.csdn.net/pipisorry/article/details/52366288 1. Spark运行架构 1.1 术语定义 lApplication:Spark App ...
Spark 运行架构核心总结
摘要: 1.基本术语 2.运行架构 2.1基本架构 2.2运行流程 2.3相关的UML类图 2.4调度模块: 2.4.1作业调度简介 2.4.2任务调度简介 3.运行模式 3.1 standalo ...
Spark入门实战系列--4.Spark运行架构
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Appli ...

随机推荐

linux系统创建windows启动盘
平时工作中用到linux的操作命令较多,因此为了方便,就给电脑装了双系统,一般工作的时候,都选择进入linux系统.但是今天有件工作之外的事情需要解决下:创建一个windows启动盘.如果按照往常来说 ...
(转)常用 HTTP 状态码对照表
Code 含义 100 客户端应当继续发送请求.这个临时响应是用来通知客户端它的部分请求已经被服务器接收,且仍未被拒绝.客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应.服务器必须 ...
[go]从os.Stdin探究文件类源码
咋一看go的标准输入输出函数有一箩筐. 细究了一下. - 从标准输入获取输入 fmt.Scan 以空白(空格或换行)分割,值满后无结束 fmt.Scanln 以空格作为分割,遇到换行结束 fmt.Sc ...
java基础点<一>
1. 九种基本数据类型的大小,以及他们的封装类.byte,short,int,long,boolue,float,double,char,特殊voidByte,Short,Integer,Long,B ...
时间总线框架之EvenBus
概述 EventBus定义:是一个发布 / 订阅的事件总线. 这么说应该包含4个成分:发布者,订阅者,事件,总线. 那么这四者的关系是什么呢? 很明显:订阅者订阅事件到总线,发送者发布事件. 订阅者可 ...
ArrayList去除集合中字符串的重复值
package com.heima.list; import java.util.ArrayList; import java.util.Iterator; import java.util.List ...
PGI 遇到的坑
以下记录为本人在使用PGI社区版编译器遇到的问题,包含两类问题 1,PGI编译器本身存在你的bug. 2,在其他编译器编译运行没问题,在PGI中出现问题. 版本(18.11社区版) 1,(bug)内置 ...
SqlServer：SqlServer(数据库备份，数据文件迁移，增加数据库文件组，递归查询一周报送情况，查询近X天未报送单位，截断数据库日志，复制单个或多个数据库表到另一个数据库 )
1.数据备份 ) ) ) )),'-','') ) SET @savePath = 'f:/DatabaseBackup/' DECLARE My_Cursor CURSOR FOR ( select ...
【HANA系列】SAP HANA SQL计算某日期是当年的第几天
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[HANA系列]SAP HANA SQL计算某日 ...
（转）arcengine+c# 修改存储在文件地理数据库中的ITable类型的表格中的某一列数据，逐行修改。更新属性表、修改属性表某列的值。
作为一只菜鸟,研究了一个上午+一个下午,才把属性表的更新修改搞了出来,记录一下: 我的需求是: 已经在文件地理数据库中存放了一个ITable类型的表(不是要素类FeatureClass),注意不是要素 ...

Spark运行时的内核架构以及架构思考

一： Spark内核架构

Spark运行时的内核架构以及架构思考的更多相关文章

随机推荐

热门专题