spark源码解析总结

========== Spark 通信架构 ==========

1、spark 一开始使用 akka 作为网络通信框架，spark 2.X 版本以后完全抛弃 akka，而使用 netty 作为新的网络通信框架。
最主要原因：spark 对 akka 没有维护，需要 akka 更新，spark 的发展受到了 akka 的牵制，akka 版本之间无法通信，即 akka 兼容性问题。
2、RpcEnv：RPC 上下文环境，每个 Rpc 端点运行时依赖的上下文环境称之为 RpcEnv。类似于 SparkContext，默认由 NettyRpcEnv 实现，由 NettyRpcEnvFactory 创建 RpcEnv。
3、RpcEndpoint：RPC 端点，Spark 针对于每个节点（Client/Master/Worker）都称之一个 Rpc 端点且都实现 RpcEndpoint 接口，内部根据不同端点的需求，设计不同的消息和不同的业务处理，如果需要发送（询问）则调用 Dispatcher。代理是 RpcEndpointRef。
4、Dispatcher：消息分发器，针对于 RPC 端点需要发送消息或者从远程 RPC 接收到的消息，分发至对应的指令收件箱/发件箱。
5、Inbox：指令消息收件箱，一个本地端点对应一个收件箱，Dispatcher 在每次向 Inbox 存入消息时，都将对应 EndpointData 加入内部待 Receiver Queue 中。
6、OutBox：指令消息发件箱，一个远程端点对应一个发件箱，当消息放入 Outbox 后，紧接着将消息通过 TransportClient 发送出去。
7、TransportClient：Netty 通信客户端，主要负责将相对应的 OutBox 中的数据发送给远程 TransportServer。
8、TransportServer：Netty 通信服务端，主要用于接收远程 RpcEndpoint 发送过来的消息，并把消息传送给 Dispatcher。

========== Spark 脚本解析 ==========
1、start-slave.sh 用于启动 slave 节点，最终启动的类是 org.apache.spark.deploy.worker.Worker 类。
2、start-master.sh 用于启动 master 节点，最终启动的类是 org.apache.spark.deploy.master.Master 类。
3、spark-submit 和 spark-shell 最终都会调用 spark-class 脚本，通过 spark-class 脚本启动相对应的入口类。

========== Spark standalone 模式启动流程 ==========

1、Master 和 Worker 都继承了 RpcEndpoint 类，成为了具体的消息发送与接收端点，整个应用是利用 Actor 模型实现的异步消息通信架构。
2、Master 节点在启动的时候的主要任务是创建了通信架构中的 RpcEnv，并注册了 Master 成为端点。
3、Worker 节点在启动的时候的主要任务是创建了通信架构中的 RpcEnv，并注册了 Worker 成为端点，并且获取了 Master 端点的代理，通过端点代理向 Master 发送消息。
4、Worker 节点在启动的时候执行 onStar 方法，向 Master 进行了注册。

========== Spark 应用提交流程 ==========

1、Driver 提交流程：用户通过 spark-submit 将 jar 包和相对应的参数提交给 spark 框架，内部实现是通过 ClientEndpoint 向 Master 发送了 RequestSubmitDriver 消息，Master 获取消息之后通过 Worker 进行 LaunchDriver 操作。
2、Driver 的进程启动：主要通过 Worker 节点的 DriverRunner 来启动整个的 Driver 进程。
3、注册 Application：Driver 进程在启动之后，通过 SparkContext 的初始化操作，创建了对应的 StandaloneSchedulerBackend，实现了向 Master 进行当前应用的注册。
4、启动 Executor 进程：当 Driver 向 Master 进行注册之后，Master 通过 scheduler() 方法来对当前的 App 进行 Executor 的分配，实现上是通过 Worker 的 ExecutorRunner 来进行 Executor 的创建和运行。
5、启动 Task 运行：当 Driver 收到所有的 Executor 资源后，通过 RDD 的 action 操作，触发 SparkContext.runJob 方法，进而调用 Dagscheduler() 方法进行当前 DAG 的运行。通过向 Executor 发送 LaunchTask 消息来启动 Executor 上的任务运行。
6、Task 运行完成：当 Executor 运任务完成之后，会通知 Driver 当前任务的运行状态，然后执行任务或者退出整个应用。

========== Spark shuffle 过程 ==========
MapReduce Shuffle 过程：
1、在 spill（刷写）阶段，数据直接写入到 kvbuffer 数据缓冲器中。会写两种类型的数据。一种是 kvmeta 数据，用于存放分区信息、索引信息；另一种是 (k, v) 对类型的数据，是实际的数据。
2、会以一个起点反向来写，即当遇到 spill 进程启动的时候，写入点会重新进行选择。

Hash Shuffle 过程：
1、未优化版本，每一个 task 任务都会根据 reduce 任务的个数创建对应数量的 bucket，bucket 其实就是写入缓冲区，每一个 bucket 都会存入一个文件，这个文件叫做 blockfile。最大的缺点是：产生的文件过多。
2、在优化版本中，主要通过 consolidation 这个参数进行优化，实现了 ShuffleFileGroup 的概念，不同批次的 task 任务可以复用最终写入的文件，来整体减少文件的数量。

Sort Shuffle 过程：
1、Sort Shuffle 整个过程的实现和 MapReduce Shuffle 过程类似。
2、Bypass 机制：Hash Shuffle 在 reduce 的数量比价少的时候性能要比 Sort Shuffle 要高，所以如果你的 reduce 的数量少于 Bypass 定义的数值的时候，Sort Shuffle 在 task 任务写出的时候会采用 Hash 方式，而不会采用 ApplyOnlyMap 以及排序的方法。

========== Spark 内存管理与分配 ==========
1、内存分配模式：静态分配和统一分配。静态分配就是固定大小分配，统一分配就是存储区和 Shuffle 区可以动态占用。
2、有几种内存配置模式：
（1）other 区，一般占用 20% 的内存区域，主要是用于代码运行以及相关数据的运行。
（2）Execution 区，这个区域一般占用 20% 的内存区域，主要用于 Shuffle 过程的内存消耗，通过 spark.shuffle.memeoryFaction 参数进行控制。
（3）Storage 区，这个区域主要用于 RDD 的缓存，通过 spark.storage.memeoryFaction 参数进行控制。
3、spark 目前支持堆内内存和堆外内存，堆外内存主要用于存储序列化后的二进制数据。

========== Spark 部署模式 ==========

spark源码解析总结的更多相关文章

Spark 源码解析：TaskScheduler的任务提交和task最佳位置算法
上篇文章< Spark 源码解析 : DAGScheduler中的DAG划分与提交 >介绍了DAGScheduler的Stage划分算法. 本文继续分析Stage被封装成TaskSet, ...
Spark 源码解析 : DAGScheduler中的DAG划分与提交
一.Spark 运行架构 Spark 运行架构如下图: 各个RDD之间存在着依赖关系,这些依赖关系形成有向无环图DAG,DAGScheduler对这些依赖关系形成的DAG,进行Stage划分,划分的规 ...
Scala实战高手****第4课：零基础彻底实战Scala控制结构及Spark源码解析
1.环境搭建基础环境配置 jdk+idea+maven+scala2.11.以上工具安装配置此处不再赘述. 2.源码导入官网下载spark源码后解压到合适的项目目录下,打开idea,File-&g ...
Spark源码解析 - Spark-shell浅析
1.准备工作 1.1 安装spark,并配置spark-env.sh 使用spark-shell前需要安装spark,详情可以参考http://www.cnblogs.com/swordfall/p/ ...
spark源码解析大全
第1章 Spark 整体概述 1.1 整体概念 Apache Spark 是一个开源的通用集群计算系统,它提供了 High-level 编程 API,支持 Scala.Java 和 Pytho ...
Scala实战高手****第7课：零基础实战Scala面向对象编程及Spark源码解析
/** * 如果有这些语法的支持,我们说这门语言是支持面向对象的语言 * 其实真正面向对象的精髓是不是封装.继承.多态呢? * --->肯定不是,封装.继承.多态,只不过是支撑面向对象的 * 一 ...
spark源码解析之基本概念
从两方面来阐述spark的组件,一个是宏观上,一个是微观上. 1. spark组件要分析spark的源码,首先要了解spark是如何工作的.spark的组件: 了解其工作过程先要了解基本概念官方罗 ...
spark源码解析之scala基本语法
1. scala初识 spark由scala编写,要解析scala,首先要对scala有基本的了解. 1.1 class vs object A class is a blueprint for ob ...
Scala实战高手****第6课：零基础实战Scala集合操作及Spark源码解析
本课内容1.Spark中Scala集合操作鉴赏2.Scala集合操作实战 --------------------------------------------------------------- ...

随机推荐

vue-cli 如何修改或删除预设preset记录
preset其实是你在create新vue项目的时候,生成的插件配置项预设,也就是你在项目中需要用到的插件安装成功了之后,会生成一个关于preset的文件,当你再次create新的vue项目的时候,就 ...
【Java】面试官灵魂拷问：if语句执行完else语句真的不会再执行吗？
写在前面最近跳槽找工作的朋友确实不少,遇到的面试题也是千奇百怪,这不,一名读者朋友面试时,被面试官问到了一个直击灵魂的问题:if 语句执行完else语句真的不会再执行吗?这个奇葩的问题把这名读者问倒 ...
Unity自定义Log
有如下两种方式,第一种借助了Unity自身的LogType枚举型:第二种则是纯粹地自己定义: public class Log { public Log(string message, UnityEn ...
Tortoise svn 基础知识
1 不跟踪文件.文件夹 1.1 文件.文件夹已经被svn跟踪将本地文件.文件夹删除(windows删除文件的删除,快捷键是shift+delete),然后执行svn update 将服务器同步到 ...
【数字图像处理】OpenCV中cv2.imread()与PIL中Image.open()的差别
cv2.imread()与PIL中Image.open()两个函数都是用来读取图像,但是在使用过程存在一些差别. 1. 首先,从导入库方面看: # opencv-python import cv2 # ...
[C#打包部署教程]002.VS2012 + Dotfuscator
前言: C#程序界流传着一句古话:"成也Reflector,败也Reflector!" C#编写的代码如果不进行一定程度的混淆和加密,那么是非常容易被反编译进行破解的,特别是对于一 ...
& 加密
接口参数中sign加密方式: 1. 签名算法使用SHA256: 2. 服务方和消费方都需要校验签名: 3. 签名生成步骤: 第一步,设所有发送或者接收到的数据为集合M1,将集合M1内非空参数值的参数按 ...
【Java8新特性】重复注解与类型注解，你真的学会了吗？
写在前面在Java8之前,在某个类或者方法,字段或者参数上标注注解时,同一个注解只能标注一次.但是在Java8中,新增了重复注解和类型注解,也就是说,从Java8开始,支持在某个类或者方法,字段或者 ...
Rocket - debug - TLDebugModuleInner - Hart Bus Access
https://mp.weixin.qq.com/s/deNMEyJ1idJDVoZwwo0A1A 简单介绍TLDebugModuleInner中核心总线访问(Hart Bus Access). 参考 ...
Verilog - ABS代码重构
https://mp.weixin.qq.com/s/-KUviTzO3Hdir_mI57L24g 从形式和语义两个层面,来扣一下ABS这段代码. 目的在于:在不降低通用性.不增加复杂度的情况下,提升 ...

spark源码解析总结

spark源码解析总结的更多相关文章

随机推荐

热门专题