理解Spark运行模式（一）(Yarn Client)

Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种，其中最为常见的是YARN运行模式，它又可分为Client模式和Cluster模式。这里以Spark自带的SparkPi来说明这些运行模式。

本文作为第一篇，先结合SparkPi程序来说明Yarn Client方式的流程。

以下是Spark中examples下的SparkPi程序。

 // scalastyle:off println

 package org.apache.spark.examples

 import scala.math.random

 import org.apache.spark.sql.SparkSession

 /** Computes an approximation to pi */

 object SparkPi {

   def main(args: Array[String]) {

     val spark = SparkSession

       .builder

       .appName("Spark Pi")

       .getOrCreate()

     val slices = if (args.length > 0) args(0).toInt else 2

     val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow

     val count = spark.sparkContext.parallelize(1 until n, slices).map { i =>

       val x = random * 2 - 1

       val y = random * 2 - 1

       if (x*x + y*y <= 1) 1 else 0

     }.reduce(_ + _)

     println(s"Pi is roughly ${4.0 * count / (n - 1)}")

     spark.stop()

   }

 }

 // scalastyle:on println

这个是Spark用于计算圆周率PI的scala程序，思想很简单，就是利用以坐标轴原点为中心画一个边长为2的正方形，原点距离正方形的上下左右边距离均为1，然后再以原点为中心画一个半径为1的圆，此时正方形的面积是4，圆的面积是PI，上面程序所做的就是在正方形里随机取若干个点（比如上面程序默认的20万），计算有多少个点落在圆形里面，那么可以认为这个等式是成立的，即：“圆面积” / “正方形面积” = “落在圆内的点数” / “正方形内的点数”，也就是，PI / 4 = count / (n-1)，所以PI = 4 * count / (n-1)。

Spark程序可以分为Driver部分和Executor部分，Driver可以认为是程序的master部分，具体而言1~16行和22~25行都是Driver部分，其余的17~21行是Executor部分，即执行具体逻辑计算的部分，上面程序slices默认是2，也就是说，默认会有2个Task来执行计算。

下面来以yarn client方式来执行这个程序，注意执行程序前先要启动hdfs和yarn，最好同时启动spark的history server，这样即使在程序运行完以后也可以从Web UI中查看到程序运行情况。

输入以下命令：

[root@BruceCentOS4 spark]# $SPARK_HOME/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client $SPARK_HOME/examples/jars/spark-examples_2.11-2.3.0.jar

以下是程序运行输出信息部分截图，

开始部分：

中间部分：

结束部分：

由于程序是以yarn client方式运行的，因此Driver是运行在客户端的(BruceCentOS4上的SparkSubmit进程），同时在BruceCentOS和BruceCentOS3上各运行了1个Executor进程（进程名字：CoarseGrainedExecutorBackend），另外在BruceCentOS上还有1个名字为ExecutorLauncher的进程，这个进程主要是作为Yarn程序中的ApplicationMaster，因为Driver运行在客户端，它仅仅作为ApplicationMaster为运行Executor向ResourceManager申请资源。

SparkUI上的Executor信息：

BruceCentOS4上的客户端进程（包含Spark Driver）：

BruceCentOS上的ApplicationMaster和Executor：

BruceCentOS3上的Executor：

下面具体描述下Spark程序在yarn client模式下运行的具体流程。

这里是一个流程图：

Spark Yarn Client向YARN的ResourceManager申请启动ApplicationMaster。同时在SparkContent初始化中将创建DAGScheduler和TASKScheduler等，由于我们选择的是Yarn-Client模式，程序会选择YarnClientSchedulerBackend。
ResourceManager收到请求后，在集群中选择一个NodeManager，为该应用程序分配第一个Container，要求它在这个Container中启动应用程序的ApplicationMaster，对应进程名字是ExecutorLauncher。与YARN-Cluster区别的是在该ApplicationMaster不运行SparkContext，只与SparkContext进行联系进行资源的分派。
Client中的SparkContext初始化完毕后，与ApplicationMaster建立通讯，向ResourceManager注册，根据任务信息向ResourceManager申请资源（Container）。
一旦ApplicationMaster申请到资源（也就是Container）后，便与对应的NodeManager通信，要求它在获得的Container中启动CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend启动后会向Client中的SparkContext注册并申请Task。
client中的SparkContext分配Task给CoarseGrainedExecutorBackend执行，CoarseGrainedExecutorBackend运行Task并向Driver汇报运行的状态和进度，以让Client随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。
应用程序运行完成后，Client的SparkContext向ResourceManager申请注销并关闭自己。

以上就是个人对Spark运行模式(yarn client)的一点理解，其中参考了“求知若渴虚心若愚”博主的“Spark(一): 基本架构及原理”的部分内容（其中基于Spark2.3.0对某些细节进行了修正），在此表示感谢。

理解Spark运行模式（一）(Yarn Client)的更多相关文章

理解Spark运行模式（二）(Yarn Cluster)
上一篇说到Spark的yarn client运行模式,它与yarn cluster模式的主要区别就是前者Driver是运行在客户端,后者Driver是运行在yarn集群中.yarn client模式一 ...
理解Spark运行模式（三）(STANDALONE和Local)
前两篇介绍了Spark的yarn client和yarn cluster模式,本篇继续介绍Spark的STANDALONE模式和Local模式. 下面具体还是用计算PI的程序来说明,examples中 ...
spark运行模式之二：Spark的Standalone模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
spark运行模式之一：Spark的local模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
Spark运行模式与Standalone模式部署
上节中简单的介绍了Spark的一些概念还有Spark生态圈的一些情况,这里主要是介绍Spark运行模式与Spark Standalone模式的部署: Spark运行模式在Spark中存在着多种运行模 ...
spark运行模式
一.Spark运行模式 Spark有以下四种运行模式: local:本地单进程模式,用于本地开发测试Spark代码; standalone:分布式集群模式,Master-Worker架构,Master ...
Spark运行模式概述
Spark编程模型的回顾 spark编程模型几大要素 RDD的五大特征 Application program的组成运行流程概述具体流程(以standalone模式为例) 任务调度 DAGSche ...
Spark运行模式_基于YARN的Resource Manager的Custer模式（集群）
使用如下命令执行应用程序: 和"基于YARN的Resource Manager的Client模式(集群)"运行模式,区别如下: 在Resource Manager端提交应用程序,会 ...
Spark运行模式：cluster与client
When run SparkSubmit --class [mainClass], SparkSubmit will call a childMainClass which is 1. client ...

随机推荐

JSON：JSON对象和JSON数组混排的复杂字符串
在java中的一个好用的JSON工具包:net.sf.json.JSONObject 和 net.sf.json.JSONArray 一解析JSON对象和JSON数组类型混排的复杂字符串举个例子: ...
[BZOJ1076] 奖励关
Description 你正在玩你最喜欢的电子游戏,并且刚刚进入一个奖励关.在这个奖励关里,系统将依次随机抛出k次宝物, 每次你都可以选择吃或者不吃(必须在抛出下一个宝物之前做出选择,且现在决定不吃的 ...
5.Linux文件管理相关命令（下）
1.文件管理之:联网下载文件(wget.curl).文件上传与下载(rz.sz) 1.wget命令 1.CentOS7 系统最小化安装默认没有wget命令,需要进行安装 [root@oldboyedu ...
算法问题实战策略 DICTIONARY
地址 https://algospot.com/judge/problem/read/DICTIONARY 解法构造一个26字母的有向图判断无回路后就可以输出判断出来的字符序了比较各个字母的先 ...
linux "No space left on device" 磁盘空间解决办法
某年某月某日某时,某人在工作中设置crontab定时任务规则保存时,提示“No space left on device”,此时用df -h检查磁盘,发现还有剩余空间.请问是什么原因及如何排查?什么会 ...
redis之Scan
scan 相比keys 具备有以下特点:1.复杂度虽然也是 O(n),但是它是通过游标分步进行的,不会阻塞线程;2.提供 limit 参数,可以控制每次返回结果的最大条数,limit 只是一个 hin ...
百万年薪python之路 -- 面试之葵花宝典
关于for面试题: for i in "alex": pass print(i) 结果: x 关于字符串的面试题: s = "给章超印倒一杯卡布奇洛" s[:: ...
基于深度学习方法的dota2游戏数据分析与胜率预测（python3.6+keras框架实现）
很久以前就有想过使用深度学习模型来对dota2的对局数据进行建模分析,以便在英雄选择,出装方面有所指导,帮助自己提升天梯等级,但苦于找不到数据源,该计划搁置了很长时间.直到前些日子,看到社区有老哥提到 ...
transform-origin盒子旋转位置
transform-Origin属性允许您更改转换元素的位置. 2D转换元素可以改变元素的X和Y轴. 3D转换元素,还可以更改元素的Z轴. 为了更好地理解Transform-Origin属性,请查看这 ...
小白学 Python（15）：基础数据结构（集合）（下）
人生苦短,我选Python 前文传送门小白学 Python(1):开篇小白学 Python(2):基础数据类型(上) 小白学 Python(3):基础数据类型(下) 小白学 Python(4):变 ...

理解Spark运行模式（一）(Yarn Client)

理解Spark运行模式（一）(Yarn Client)的更多相关文章

随机推荐

热门专题