【Spark2.0源码学习】-2.一切从脚本说起

从脚本说起

在看源码之前，我们一般会看相关脚本了解其初始化信息以及Bootstrap类，Spark也不例外，而Spark我们启动三端使用的脚本如下：

%SPARK_HOME%/sbin/start-master.sh
%SPARK_HOME%/sbin/start-slaves.sh
%SPARK_HOME%/sbin/start-all.sh
%SPARK_HOME%/bin/spark-submit

三端启动脚本中对于公共处理部分进行抽取为独立的脚本，如下：

spark-config.sh	初始化环境变量 SPARK_CONF_DIR, PYTHONPATH
bin/load-spark-env.sh	初始化环境变量SPARK_SCALA_VERSION，调用%SPARK_HOME%/conf/spark-env.sh加载用户自定义环境变量
conf/spark-env.sh	用户自定义配置

接下来针对于一些重要的脚本进行一一描述

一. start-daemon.sh

主要完成进程相关基本信息初始化，然后调用bin/spark-class进行守护进程启动，该脚本是创建端点的通用脚本，三端各自脚本都会调用spark-daemon.sh脚本启动各自进程

初始化 SPRK_HOME，SPARK_CONF_DIR，SPARK_IDENT_STRING，SPARK_LOG_DIR环境变量（如果不存在）
初始化日志并测试日志文件夹读写权限,初始化PID目录并校验PID信息
调用/bin/spark-class脚本，/bin/spark-class见下

二. bin/spark-class

master调用举例：bin/spark-class --class org.apache.spark.deploy.master.Master --host $SPARK_MASTER_HOST --port $SPARK_MASTER_PORT --webui-port $SPARK_MASTER_WEBUI_PORT $ORIGINAL_ARGS

初始化 RUNNER（java）,SPARK_JARS_DIR（%SPARK_HOME%/jars）,LAUNCH_CLASSPATH信息
调用（ "$RUNNER" -Xmx128m -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main "$@"）获取最终执行的shell语句
执行最终的shell语句（比如：/opt/jdk1.7.0_79/bin/java -cp /opt/spark-2.1.0/conf/:/opt/spark-2.1.0/jars/*:/opt/hadoop-2.6.4/etc/hadoop/ -Xmx1g -XX:MaxPermSize=256m org.apache.spark.deploy.master.Master --host zqh --port 7077 --webui-port 8080），如果是Client，那么可能为r，或者python脚本

三. start-master.sh

启动Master的脚本，流程如下：

用户执行start-master.sh脚本，初始化环境变量SPARK_HOME （如果PATH不存在SPARK_HOME,初始化脚本的上级目录为SPARK_HOME），调用spark-config.sh，调用load-spark-env.sh
如果环境变量SPARK_MASTER_HOST， SPARK_MASTER_PORT，SPARK_MASTER_WEBUI_PORT不存在，进行初始化7077，hostname -f，8080
调用spark-daemon.sh脚本启动master进程（spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --host $SPARK_MASTER_HOST --port $SPARK_MASTER_PORT --webui-port $SPARK_MASTER_WEBUI_PORT $ORIGINAL_ARGS）

四. start-slaves.sh

启动Worker的脚本，流程如下：

用户执行start-slaves.sh脚本，初始化环境变量SPARK_HOME，调用spark-config.sh，调用load-spark-env.sh，初始化Master host/port信息，
调用slaves.sh脚本，读取conf/slaves文件并遍历，通过ssh连接到对应slave节点，启动 ${SPARK_HOME}/sbin/start-slave.sh spark://$SPARK_MASTER_HOST:$SPARK_MASTER_PORT
start-slave.sh在各个节点中，初始化环境变量SPARK_HOME，调用spark-config.sh，调用load-spark-env.sh，根据$SPARK_WORKER_INSTANCES计算WEBUI_PORT端口（worker端口号依次递增）并启动Worker进程（${SPARK_HOME}/sbin /spark-daemon.sh start org.apache.spark.deploy.worker.Worker $WORKER_NUM --webui-port "$WEBUI_PORT" $PORT_FLAG $PORT_NUM $MASTER "$@"）

五. start-all.sh

属于快捷脚本，内部调用start-master.sh与start-slaves.sh脚本,并无额外工作

六.bin/spark-submit

任务提交的基本脚本，流程如下：

直接调用spark-class脚本进行进程创建（./spark-submit --class org.apache.spark.examples.SparkPi --master spark://zqh:7077 ../examples/jars/spark-examples_2.11-2.1.0.jar 10）
如果是java/scala任务，那么最终调用SparkSubmit.scala进行任务处理（/opt/jdk1.7.0_79/bin/java -cp /opt/spark-2.1.0/conf/:/opt/spark-2.1.0/jars/*:/opt/hadoop-2.6.4/etc/hadoop/ -Xmx1g -XX:MaxPermSize=256m org.apache.spark.deploy.SparkSubmit --master spark://zqh:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.1.0.jar 10）

七.总结

三端在的脚本主要进行多方面抽取，使代码更加精炼

公共的环境变量由spark-config.sh，bin/load-spark-env.sh进行统一的处理
扩在由conf/spark-env.sh进行配置读取实现
守护进程由spark-daemon.sh进行创建，进行相关的log，pid前置处理
spark-class.sh是公共的处理入口脚本
Main.java负责对参数的解析组装
最后执行组装好的command，其中支持scala/java/python/r

【Spark2.0源码学习】-2.一切从脚本说起的更多相关文章

【Spark2.0源码学习】-1.概述
Spark作为当前主流的分布式计算框架,其高效性.通用性.易用性使其得到广泛的关注,本系列博客不会介绍其原理.安装与使用相关知识,将会从源码角度进行深度分析,理解其背后的设计精髓,以便后续 ...
spark2.0源码学习
[Spark2.0源码学习]-1.概述 [Spark2.0源码学习]-2.一切从脚本说起 [Spark2.0源码学习]-3.Endpoint模型介绍 [Spark2.0源码学习]-4.Master启动 ...
【Spark2.0源码学习】-3.Endpoint模型介绍
Spark作为分布式计算框架,多个节点的设计与相互通信模式是其重要的组成部分. 一.组件概览对源码分析,对于设计思路理解如下: RpcEndpoint: ...
【Spark2.0源码学习】-6.Client启动
Client作为Endpoint的具体实例,下面我们介绍一下Client启动以及OnStart指令后的额外工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/bin/jav ...
【Spark2.0源码学习】-4.Master启动
Master作为Endpoint的具体实例,下面我们介绍一下Master启动以及OnStart指令后的相关工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/ ...
【Spark2.0源码学习】-5.Worker启动
Worker作为Endpoint的具体实例,下面我们介绍一下Worker启动以及OnStart指令后的额外工作一.脚本概览下面是一个举例: /opt/jdk1..0_79/ ...
【Spark2.0源码学习】-9.Job提交与Task的拆分
在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用 ...
【Spark2.0源码学习】-10.Task执行与回馈
通过上一节内容,DriverEndpoint最终生成多个可执行的TaskDescription对象,并向各个ExecutorEndpoint发送LaunchTask指令,本节内容将关注Exe ...
【Spark2.0源码学习】-7.Driver与DriverRunner
承接上一节内容,Client向Master发起RequestSubmitDriver请求,Master将DriverInfo添加待调度列表中(waitingDrivers),下面针对于Dri ...

随机推荐

经典网络还是VPC，开发者作何选择？
近两天,关于公有云经典网络(基础网络)与私有网络(VPC)的讨论引发技术圈极大关注,事件起因于有开发者将数据库限制在内网访问,但由于安全组设置的原因,阿里云邻居用户被黑后,牵连到了自己的业务.为此,开 ...
CentOs下安装PHP环境的步骤
前言在CentOs环境下安装php开发环境,需要首先安装一些源文件,然后使用yum命令直接安装即可,在Fedora 20 源中已经有了PHP的源,直接可以使用以下命令安装即可: # yum inst ...
Min Stack leetcode
Design a stack that supports push, pop, top, and retrieving the minimum element in constant time. pu ...
个人C++学习路线
这段时间学习<<C++ primer >> 第四版,一边学一遍考虑,要怎么样往深处学习.查了网上的学习路线,知乎大神的问题回答,整理了一下思路,如下吧: <<C++ ...
安装Eclipse(android)新建项目时遇到的问题
---恢复内容开始--- 解决方案: 我先删掉了新建的项目,重新建立项目时将API都选成相同的API19:... 然后就成功了 ---恢复内容结束---
RSA密码体制
公钥算法的基本数论知识公钥密码学中大部分引用了数论的成果,所以必要在介绍RSA密码体制之前,详细介绍一下所使用的几个数论的知识点欧几里得算法欧几里得算法主要是解决最大公约数问题,记两个正整数\( ...
jump堡垒机配置使用
一.用户管理 1)添加用户点击用户管理 —> 查看用户 —> 添加用户输入要添加的用户名,姓名,权限,Mail,并且发送邮件 —> 保存查看添加的用户查看用户邮件邮件中包含 ...
mybatis 使用@Select 注解，因为字符编码不一致导致mybatis 报错
使用 mybatis 的@Select 注解, @Select({ "<script>select " + ALL_COLUMNS + " from &quo ...
说说API的防重放机制
说说API的防重放机制我们在设计接口的时候,最怕一个接口被用户截取用于重放攻击.重放攻击是什么呢?就是把你的请求原封不动地再发送一次,两次...n次,一般正常的请求都会通过验证进入到正常逻辑中,如果 ...
Windows 10 Creaters Update 画中画模式和窗口高斯模糊
在Windows 10 Creaters Update中,可以给窗口设置高斯模糊了,只要几行代码! <Grid Loaded="Grid_Loaded"> <Gr ...

【Spark2.0源码学习】-2.一切从脚本说起

【Spark2.0源码学习】-2.一切从脚本说起的更多相关文章

随机推荐

热门专题