Spark on Yarn：任务提交参数配置

当在YARN上运行Spark作业，每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。

以下参数配置为例子：

spark-submit

--master yarn-cluster   　　　　#使用集群调度模式(一般使用这个参数)

--num-executors 132      　　 # executor 数量

--executor-cores 2        　　　#设置单个executor能并发执行task数，根据job设置，推荐值2-16 （这里不是指CPU数，集群不限制CPU使用）

--driver-memory 4g 　　　　　#driver的内存大小，推荐值2-6G，不宜太大

--executor-memory 6g 　　　 #单个executor的内存大小，根据job需求以及并发数设置，最大不要超过30G

。。。

公式：

1、containers的最大值就是spark 设置的 num-executors值 ;

2、实际占用的总的vcores≈（executor-cores）*containers（实际executors）

3、内存计算公式：((实际占用的总的containers)*(executor-memory+512M))+(driver-memory)。

以下是我实际执行的情况：

submit.sh

#!/bin/sh

spark-submit --master yarn-cluster --class MyMain --num-executors  --executor-cores  --driver-memory 4g --executor-memory 6g xxx.jar

yarn resoruce manager监控的资源占用结果：

基本上按照上边公式。

参考资料：

Spark On YARN内存分配 https://yq.aliyun.com/articles/25468

spark on yarn - job提交重要参数说明：http://www.tuicool.com/articles/7vuu22b

spark-submit提交参数设置:http://www.cnblogs.com/gnool/p/5643595.html

Spark on Yarn：任务提交参数配置的更多相关文章

Spark On Yarn：提交Spark应用程序到Yarn
转载自:http://lxw1234.com/archives/2015/07/416.htm 关键字:Spark On Yarn.Spark Yarn Cluster.Spark Yarn Clie ...
spark on yarn 无法提交任务问题
java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig spark任务提交出错. 原因: spark ...
spark yarn-cluster 和 yarn-client提交的配置
1. spark conf 目录下需要配置进去hadoop home 2.需要spark 提交的配置文件加上‘-- master yarn-cluster/yarn-client’设置提交的模式
018 spark on yarn (Job history)的配置，主要是yarn处跳转到历史聚合页面
一:目标 1.目标在yarn的8080页面可以跳转到spark的日志18080页面. 因为在运行spark之后,看对应的job的日志,这样直接连接,更合理直接. 2.总结在后面可以看到,其实不需要 ...
spark on yarn任务提交缓慢解决
1.为什么要让运行时Jar可以从yarn端访问spark2以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在每一次我们运行的时候,如果 ...
基础概念之 Spark on Yarn
先抛出问题:Spark on Yarn有cluster和client两种模式,它们有什么区别? 用Jupyter写Spark时,只能使用client模式,为什么? 写一篇文章,搞清楚 Spark on ...
【原创】大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%
spark 2.1.1 系统中希望监控spark on yarn任务的执行进度,但是监控过程发现提交任务之后执行进度总是10%,直到执行成功或者失败,进度会突然变为100%,很神奇, 下面看spark ...
【原】Spark on YARN
在YARN上运行Spark 在Spark0.6.0版本开始支持YARN模式,随后的版本在逐渐地完善. 在YARN上启动Spark 确保HADOOP_CONF_DIR或YARN_CONF_DIR属性的值 ...
Running Spark on YARN
Running Spark on YARN 对 YARN (Hadoop NextGen) 的支持是从Spark-0.6.0开始的,后续的版本也一直持续在改进. Launching Spark on ...

随机推荐

ThinkPHP的D方法和M方法的区别
M方法和D方法的区别 ThinkPHP 中M方法和D方法都用于实例化一个模型类,M方法用于高效实例化一个基础模型类,而 D方法用于实例化一个用户定义模型类. 使用M方法如果是如下情况,请考虑使用 ...
iOS AFOAuth2Manager使用心得
github地址: https://github.com/AFNetworking/AFOAuth2Manager 这个库,不多说,实现OAuth 2.0授权访问. 确实可以减轻很大的负担,而且使用 ...
github page
使用github page 可以查看仓库中保存的网页的事例新建gh-pages的分支,然后点击上方的page按钮即可配置相应的链接以及地址注:默认情况下显示的是当前文件下的index.html文件 ...
Hibernate和IBatis对比
[转自]http://blog.csdn.net/ya2dan/article/details/7396598 项目也做过几个, 使用IBatis就做一个项目, 基本上都是使用Hibernate, 也 ...
cetnos 7 ntp服务的安装与配置
首先需要搭建yum本地仓库 http://www.cnblogs.com/jw35/p/5967677.html #搭建yum仓库方法 yum install ntp -y #安装n ...
iOS编程中遇到的问题
1.应用在iPhone6plus 系统iOS9.1安装时没遇到问题,在iPhone4s 系统iOS 7时bulid success 但是安装失败提示 There was an internal API ...
MySQL:索引工作原理
索引查找:通过索引键找到索引的叶子节点,再通过叶子节点的标记快速找到表中对应的行数据,再返回指定的列索引找查是通过索引键定先位到一块局部区域,再开始扫描匹配的数据的. 为什么需要索引(Why is ...
Ubuntu14.10安装Eclipse
方法一：(缺点是安装时附加openjdk等大量程序并无法去除，优点是安装简单) $ sudo apt-get install eclipse 方法二：(优点是安装内容清爽，缺点是配置麻烦) 1、安装J ...
npm link 安装本地模块，将本地模块cli化
第三方学习地址 http://mp.weixin.qq.com/s?__biz=MzAxMTU0NTc4Nw==&mid=2661157390&idx=1&sn=6d96e54 ...
#20145205 《Java程序设计》第10周学习总结
教材学习内容总结教材学习内容总结 Java的网络编程 •网络编程是指编写运行在多个设备(计算机)的程序,这些设备都通过网络连接起来. •java.net包中J2SE的API包含有类和接口,它们提供低 ...

Spark on Yarn：任务提交参数配置

Spark on Yarn：任务提交参数配置的更多相关文章

随机推荐

热门专题