spark的任务调度模式

spark任务调度和资源分配

1、Spark调度模式 FIFO和FAIR

	Spark中的调度模式主要有两种：FIFO和FAIR。

	默认情况下Spark的调度模式是FIFO（先进先出），谁先提交谁先执行，后面的任务需要等待前面的任务执行。

	而FAIR（公平调度）模式支持在调度池中为任务进行分组，不同的调度池权重不同，任务可以按照权重来决定执行顺序。

2、资源分配概述

spark的分配资源主要就是 executor、cpu per executor、memory per executor、driver memory 等的调节，在我们在生产环境中，提交spark作业时，用的spark-submit shell脚本，里面调整对应的参数：

spark-submit

--class cn.spark.sparktest.core.WordCountCluster

--num-executors 3 \ 配置executor的数量

--driver-memory 100m \ 配置driver的内存（影响不大）

--executor-memory 100m \ 配置每个executor的内存大小

--executor-cores 3 \ 配置每个executor的cpu core数量

/usr/local/SparkTest-0.0.1-SNAPSHOT-jar-with-dependencies.jar \

3、如何分配资源

首先要了解你的机子的资源，多大的内存，多少个cpu core，就根据这个实际情况去设置，能使用多少资源，就尽量去调节到最大的大小（executor的数量，几十个到上百个不等；executor内存；executor cpu core）。一个cpu对应2-3task合理
- Standalone 模式
  - 如果每台机器可用内存是4G，2个cpu core，20台机器，
  - 那可以设置：20个executor，每个executor4G内存，2个cpu core（资源最大化利用）。
- yarn 模式下
  - 根据spark要提交的资源队列资源来考虑，如果所在队列资源为500G内存，100个cpu core。
  - 可以设置50个executor；每个executor10G内存2个cpu
调节资源后，SparkContext，DAGScheduler，TaskScheduler，会将我们的算子，切割成大量的task，提交到Application的executor上面去执行。

4、分配资源策略

- 给application分配资源选择worker（executor），现在有两种策略* ：
- 尽量的打散，即一个Application尽可能多的分配到不同的节点。这个可以通过设置spark.deploy.spreadOut来实现。默认值为true，即尽量的打散。（默认）
- 尽量的集中，即一个Application尽量分配到尽可能少的节点。

5、分配资源分析

- 增加每个executor的cpu core，也是增加了执行的并行能力*。原本20个executor，每个才2个cpu core。能够并行执行的task数量，就是40个task。
- 如果现在每个executor的cpu core，增加到了5个。能够并行执行的task数量，就是100个task。执行的速度，提升了2.5倍。
- 如果executor数量比较少，那么能够并行执行的task数量就比较少，就意味着，我们的Application的并行执行的能力就很弱。
  - 比如有3个executor，每个executor有2个cpu core，那么同时能够并行执行的task就是6个。6个执行完以后，再换下一批6个task。
- 增加了executor数量以后，那么就意味着能够并行执行的task数量，也就变多了。比如原先是6个，现在可能可以并行执行10个，甚至20个，100个。那么并行能力就比之前提升了数倍，数十倍。相应的，性能（执行的速度），也能提升数倍~数十倍。
- 增加每个executor的内存量*。增加了内存量以后，对性能的提升有几点：
- 如果需要对RDD进行cache，那么更多的内存，就可以缓存更多的数据，将更少的数据写入磁盘，甚至不写入磁盘。减少了磁盘IO。
- 对于shuffle操作，reduce端，会需要内存来存放拉取的数据并进行聚合。如果内存不够，也会写入磁盘。如果给executor分配更多内存以后，就有更少的数据，需要写入磁盘，甚至不需要写入磁盘。减少了磁盘IO，提升了性能。
- 对于task的执行，可能会创建很多对象。如果内存比较小，可能会频繁导致JVM堆内存满了，然后频繁GC，垃圾回收， GC和full GC。（速度很慢）。内存加大以后，带来更少的GC，垃圾回收，避免了速度变慢，速度变快了。

spark的任务调度模式的更多相关文章

Spark的任务调度
本文尝试从源码层面梳理Spark在任务调度与资源分配上的做法. 先从Executor和SchedulerBackend说起.Executor是真正执行任务的进程,本身拥有若干cpu和内存,可以执行以线 ...
【Spark】Spark的Standalone模式安装部署
Spark执行模式 Spark 有非常多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则执行在集群中,眼下能非常好的执行在 Yarn和 Mesos 中.当然 Spark 还有自带的 St ...
spark运行模式之二：Spark的Standalone模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
spark运行模式之一：Spark的local模式安装部署
Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...
spark的standlone模式安装和application 提交
spark的standlone模式安装安装一个standlone模式的spark集群,这里是最基本的安装,并测试一下如何进行任务提交. require:提前安装好jdk 1.7.0_80 :scal ...
【原】Spark不同运行模式下资源分配源码解读
版权声明:本文为原创文章,未经允许不得转载. 复习内容: Spark中Task的提交源码解读 http://www.cnblogs.com/yourarebest/p/5423906.html Sch ...
Spark集群模式&Spark程序提交
Spark集群模式&Spark程序提交 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone-Spark自带的一种集群管理方式,易于构建集群. Apache Mesos- ...
【待补充】Spark 集群模式 && Spark Job 部署模式
0. 说明 Spark 集群模式 && Spark Job 部署模式 1. Spark 集群模式 [ Local ] 使用一个 JVM 模拟 Spark 集群 [ Standalone ...
Spark的运行模式(2)--Yarn-Cluster和Yarn-Client
3. Yarn-Cluster Yarn是一种统一资源管理机制,可以在上面运行多种计算框架.Spark on Yarn模式分为两种:Yarn-Cluster和Yarn-Client,前者Driver运 ...

随机推荐

因为看见，所以发现：QBotVariant谢绝落幕
互联网给人带来便捷的同时,其公开大量的资源也同样给恶意利用者带了便捷,越来越多公开的恶意程序源码降低了对外攻击.入侵的难度,使得安全问题愈加严重. 阿里云安全团队从今年5月份监测到一BOT家族,其样本 ...
BlueStore-先进的用户态文件系统《一》
https://zhuanlan.zhihu.com/p/45084771 分布式存储系统通过将数据分散到多台机器上来充分利用多台机器的资源提高系统的存储能力,每台机器上的数据存放都需要本地的单机存储 ...
PHP copy() 函数
定义和用法 copy() 函数复制文件. 该函数如果成功则返回 TRUE,如果失败则返回 FALSE. 语法 copy(file,to_file) 参数描述 file 必需.规定要复制的文件. to ...
<自动化测试>之<selenium API 用法2>
不知道之前的selenium API 用法1,有没有去练习, 个人认为线性代码还是要靠敲的, 后面的模块化除了多敲还需要一定的编程思想去理解, 今天下午不是很忙就给来这儿补充点selenium api ...
51nod1340地铁环线
经典题. 经典差分约束模型. 但是显然这个总长是有上下界的. 直接二分总长,判断有没有负环如果没有负环好办,有负环就不知道怎么偏了. 因为没有单调性! (如果所有没有单调性的函数图像,都知道往哪里 ...
【Java架构：基础技术】一篇文章搞掂：Idea
一.使用技巧 1.1.配置Maven 打开File-Settings打开设置界面 1.2.配置JDK JDK可以设置默认版本,也可以设置针对某个项目分别对应File-Other Setting-De ...
springboot controller传参，对象映射
Post请求,对象映射时,在参数加 @RequestBody: 传入对象内字段的json才能映射 {"legendData": [100,90,80,70,60,50,40,30 ...
WebBrowser常用浏览操作
WebBrowser1.GoHome; //到浏览器默认主页 WebBrowser1.Refresh; //刷新 WebBrowser1.GoBack; //后退 WebBrowser1.GoForw ...
activiti7流程变量的测试(设置全局变量)
package com.zcc.activiti03; import org.activiti.engine.*;import org.activiti.engine.repository.Deplo ...
ArcGis基础——设置图层可选状态
在ArcMap的图层列表上右键,可以设置“仅本图层可选”. 那么,如何设置回多个或者全部图层可选状态呢? 1.在ArcMap的菜单栏找到自定义——自定义模式——选择——设置可选图层. 2.将“设置可 ...

spark的任务调度模式

spark的任务调度模式的更多相关文章

随机推荐

热门专题