Spark On Yarn：提交Spark应用程序到Yarn

转载自：http://lxw1234.com/archives/2015/07/416.htm

关键字：Spark On Yarn、Spark Yarn Cluster、Spark Yarn Client

Spark On Yarn模式配置非常简单，只需要下载编译好的Spark安装包，在一台带有Hadoop Yarn客户端的机器上解压，简单配置之后即可使用。

要把Spark应用程序提交到Yarn运行，首先需要配置HADOOP_CONF_DIR或者YARN_CONF_DIR，让Spark知道Yarn的配置信息，比如：ResourceManager的地址。可以配置在spark-env.sh中，也可以在提交Spark应用之前export：

export HADOOP_CONF_DIR=/etc/hadoop/conf

yarn-cluster模式提交Spark应用程序



./spark-submit \

--class com.lxw1234.test.WordCount \

--master yarn-cluster \

--executor-memory 4G \

--num-executors 10 \

/home/lxw1234/spark-wordcount.jar \

/logs/2015-07-14/ /tmp/lxw1234/output/

yarn-client模式提交Spark应用程序



./spark-submit \

--class com.lxw1234.test.WordCount \

--master yarn-client \

--executor-memory 4G \

--num-executors 10 \

/home/lxw1234/spark-wordcount.jar \

/logs/2015-07-14/ /tmp/lxw1234/output/

Yarn Cluster模式和Yarn Client模式的主要区别

yarn-cluster模式中，应用程序(包括SparkContext)都是作为Yarn框架所需要的

ApplicationMaster,在Yarn ResourceManager为其分配的一个随机节点上运行；

而在yarn-client模式中，SparkContext运行在本地，该模式适用于应用程序本身需要在本地进行交互的场合。

Spark Standalone模式下提交Spark应用程序，可参考：

http://lxw1234.com/archives/2015/05/215.htm

以下是一些Spark On Yarn相关的配置参数：

spark.yarn.am.memory

默认值：512M

在yarn-client模式下，申请Yarn App Master所用的内存。

spark.driver.memory

默认值：512M

在yarn-cluster模式下，申请Yarn App Master（包括Driver）所用的内存。

spark.yarn.am.cores

默认值：1

在yarn-client模式下，申请Yarn App Master所用的CPU核数

spark.driver.cores

默认值：1

在yarn-cluster模式下，申请Yarn App Master（包括Driver）所用的CPU核数。

spark.yarn.am.waitTime

默认值：100s

在yarn-cluster模式下，Yarn App Master等待SparkContext初始化完成的时间；

在yarn-client模式下，Yarn App Master等待SparkContext链接它的时间；

spark.yarn.submit.file.replication

默认值：HDFS副本数

Spark应用程序的依赖文件上传到HDFS时，在HDFS中的副本数，这些文件包括Spark的Jar包、应用程序的Jar包、其他作为DistributeCache使用的文件等。通常，如果你的集群节点数越多，相应地就需要设置越多的拷贝数以加快这些文件的分发。

spark.yarn.preserve.staging.files

默认值：false

在应用程序结束后是否保留上述上传的文件。

spark.yarn.scheduler.heartbeat.interval-ms

默认值：5000

Spark Application Master向Yarn ResourceManager发送心跳的时间间隔，单位毫秒。

spark.yarn.max.executor.failures

默认值：numExecutors * 2 (最小为3)

最多允许失败的Executor数量。

spark.yarn.historyServer.address

默认值：none

Spark运行历史Server的地址，主机:host，如：lxw1234.com:18080，注意不能包含http://

默认不配置，必须开启Spark的historyServer之后才能配置。该地址用于Yarn ResourceManager在Spark应用程序结束时候，将该application的运行URL从ResourceManager的UI指向Spark historyServer UI。

spark.executor.instances

默认值：2

Executor实例的数量，不能与spark.dynamicAllocation.enabled同时使用。

spark.yarn.queue

默认值：default

指定提交到Yarn的资源池

spark.yarn.jar

Spark应用程序使用的Jar包位置，比如：hdfs://cdh5/lxw1234.com/

参考更多大数据Hadoop、Spark、Hive相关：lxw的大数据田地

另外，在提交Spark应用程序到Yarn时候，可以使用—files指定应用程序所需要的文件；

使用—jars 和 –archives添加应用程序所依赖的第三方jar包等。

Spark On Yarn：提交Spark应用程序到Yarn的更多相关文章

Spark2.x（五十九）：yarn-cluster模式提交Spark任务，如何关闭client进程?
问题: 最近现场反馈采用yarn-cluster方式提交spark application后,在提交节点机上依然会存在一个yarn的client进程不关闭,又由于spark application都是 ...
Spark（七）Spark内存调优
一.概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色.理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优.本文 ...
yarn队列提交spark任务权限控制
转载请注明出处:http://www.cnblogs.com/xiaodf/ 1 CapacityScheduler 1.1 模型介绍 1.2 资源分配相关参数 1.3 限制应用程序数目相关参数 1. ...
Spark集群模式&Spark程序提交
Spark集群模式&Spark程序提交 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone-Spark自带的一种集群管理方式,易于构建集群. Apache Mesos- ...
Spark集群之yarn提交作业优化案例
Spark集群之yarn提交作业优化案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.启动Hadoop集群 1>.自定义批量管理脚本 [yinzhengjie@s101 ...
Idea里面远程提交spark任务到yarn集群
Idea里面远程提交spark任务到yarn集群 1.本地idea远程提交到yarn集群 2.运行过程中可能会遇到的问题 2.1首先需要把yarn-site.xml,core-site.xml,hdf ...
【原创】大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%
spark 2.1.1 系统中希望监控spark on yarn任务的执行进度,但是监控过程发现提交任务之后执行进度总是10%,直到执行成功或者失败,进度会突然变为100%,很神奇, 下面看spark ...
【原创】大叔经验分享（14）spark on yarn提交任务到集群后spark-submit进程一直等待
spark on yarn通过--deploy-mode cluster提交任务之后,应用已经在yarn上执行了,但是spark-submit提交进程还在,直到应用执行结束,提交进程才会退出,有时这会 ...
Spark通过YARN提交任务不成功（包含YARN cluster和YARN client)
无论用YARN cluster和YARN client来跑,均会出现如下问题. [spark@master spark-1.6.1-bin-hadoop2.6]$ jps 2049 NameNode ...

随机推荐

HTTP接口功能自动化测试入门
无论是浏览器上运行的Web应用还是移动端的H5应用,都离不开HTTP接口.Web应用通常是分为前后台开发的,后台提供接口调用返回Json对象,前台使用JS框架去加载后台返回的Json.而H5页面动态获 ...
C#子线程刷新界面并关闭窗体
目的:要循环刷新界面上的控件,同时不影响用户操作.循环结束后关闭窗体. 步骤:先创建一个窗体,窗体中拖入一个lable控件(label1),一个button控件(button1) 代码窗口输入: // ...
rm命令
rm是一个危险的命令,使用的时候要特别当心,尤其对于新手,否则整个系统就会毁在这个命令(比如在/(根目录)下执行rm * -rf).所以,我们在执行rm之前最好先确认一下在哪个目录,到底要删除什么东西 ...
SPOJ #10657. LOGIC (riddle)
1 line in Ruby(2.0), 36B: p (1..n=gets.to_i).reduce(:*)+2**n-n
剑指offer系列32-----对称二叉树的判断
[题目]请实现一个函数,用来判断一颗二叉树是不是对称的.注意,如果一个二叉树同此二叉树的镜像是同样的,定义其为对称的. package com.exe7.offer; /** * [题目]请实现一个函 ...
thinkphp 常用
{$Think.session.adminuser} 获取session信息,模版和js中都可以调用模版调用 <empty name="Think.session.userid& ...
TX Textcontrol 使用总结五——添加图片
实现如图所示效果: 实现代码如下所示: 注意,此处不做代码格式化处理... using System;using System.Collections.Generic;using System.Dra ...
.NET简谈构件系统开发模式
转自[王清培] http://www.cnblogs.com/wangiqngpei557/archive/2011/06/14/2080416.html 在本人的“.NET简谈插件系统开发模式”一文 ...
黄聪：C# 开发Chrome内核浏览器(WebKit.net)
WebKit.net是对WebKit的.Net封装,使用它.net程序可以非常方便的集成和使用webkit作为加载网页的容器.这里介绍一下怎么用它来显示一个网页这样的一个最简单的功能. 第一步: 下载 ...
hadoop作业调优参数整理及原理(转)
1 Map side tuning参数 1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘.这中间的过程比较复杂,并且利用到了内 ...

Spark On Yarn：提交Spark应用程序到Yarn

Spark On Yarn：提交Spark应用程序到Yarn的更多相关文章

随机推荐

热门专题