#查看帮助:./bin/spark-submit --help   ./bin/spark-shell --help

用法1: spark-submit [options] <app jar | python file> [app arguments]
用法2: spark-submit --kill [submission ID] --master [spark://...]
用法3: spark-submit --status [submission ID] --master [spark://...]

选项:

--master          MASTER_URL            spark://host:port, mesos://host:port, yarn, or local.

-deploy-mode DEPLOY_MODE         Whether to launch the driver program locally ("client") or on one of the worker machines inside the cluster ("cluster")  (Default: client).

--class            CLASS_NAME             Your application's main class (for Java / Scala apps).

--name            NAME                          A name of your application.

--jars               JARS                           Comma-separated list of local jars to include on the driver  and executor classpaths.

--packages                                         Comma-separated list of maven coordinates of jars to include on the driver and executor classpaths. Will search the local maven repo, then maven central and any additional remote repositories given by --repositories. The format for the coordinates should be groupId:artifactId:version.
--exclude-packages                            Comma-separated list of groupId:artifactId, to exclude while resolving the dependencies provided in --packages to avoid dependency conflicts.
--repositories                                      Comma-separated list of additional remote repositories to search for the maven coordinates given with --packages.
--py-files PY_FILES                            Comma-separated list of .zip, .egg, or .py files to place on the PYTHONPATH for Python apps.
--files FILES                                       Comma-separated list of files to be placed in the working  directory of each executor.

--conf PROP=VALUE                         Arbitrary Spark configuration property.
--properties-file                                   FILE Path to a file from which to load extra properties. If not  specified, this will look for conf/spark-defaults.conf.

--driver-memory MEM                         Memory for driver (e.g. 1000M, 2G) (Default: 1024M).
--driver-java-options                            Extra Java options to pass to the driver.
--driver-library-path                             Extra library path entries to pass to the driver.
--driver-class-path                               Extra class path entries to pass to the driver. Note that jars added with --jars are automatically included in the classpath.

--executor-memory MEM                    Memory per executor (e.g. 1000M, 2G) (Default: 1G).

--proxy-user NAME                             User to impersonate when submitting the application.

--help, -h                                             Show this help message and exit
--verbose, -v                                        Print additional debug output
--version,                                              Print the version of current Spark

Spark standalone with cluster deploy mode only:  --driver-cores NUM Cores for driver (Default: 1).

Spark standalone or Mesos with cluster deploy mode only:
--supervise If given, restarts the driver on failure.
--kill SUBMISSION_ID If given, kills the driver specified.
--status SUBMISSION_ID If given, requests the status of the driver specified.

Spark standalone and Mesos only:   --total-executor-cores NUM Total cores for all executors.

Spark standalone and YARN only:    --executor-cores NUM Number of cores per executor. (Default: 1 in YARN mode,or all available cores on the worker in standalone mode)

YARN-only:
--driver-cores NUM                   Number of cores used by the driver, only in cluster mode  (Default: 1).
--queue QUEUE_NAME          The YARN queue to submit to (Default: "default").
--num-executors NUM              Number of executors to launch (Default: 2).
--archives ARCHIVES              Comma separated list of archives to be extracted into the
working directory of each executor.
--principal PRINCIPAL              Principal to be used to login to KDC, while running on secure HDFS.
--keytab KEYTAB                     The full path to the file that contains the keytab for the principal specified above. This keytab will be copied to the node running the Application Master via the Secure Distributed Cache, for renewing the login tickets and the delegation tokens periodically.

./bin/spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]

一些常用的选项是:

  • --class:您的应用程序的入口(例如org.apache.spark.examples.SparkPi
  • --master:群集的主要URL(例如spark://23.195.26.187:7077
  • --deploy-mode:是否在工作节点(cluster)上或本地作为外部客户端部署驱动程序(client)(默认值:client
  • --conf:key = value格式的任意Spark配置属性。对于包含空格的值,用引号括起“key = value”(如图所示)。
  • application-jar:包括您的应用程序和所有依赖项的捆绑jar的路径。URL必须在群集内全局可见,例如,所有节点上存在的hdfs://路径或file://路径。
  • application-arguments:传递给主类的主要方法的参数,如果有的话
# Run application locally on 8 cores
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[8] \
/path/to/examples.jar \
100 # Run on a Spark standalone cluster in client deploy mode
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
1000 # Run on a Spark standalone cluster in cluster deploy mode with supervise
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--deploy-mode cluster \
--supervise \
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
1000 # Run on a YARN cluster
export HADOOP_CONF_DIR=XXX
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \ # can be client for client mode
--executor-memory 20G \
--num-executors 50 \
/path/to/examples.jar \
1000 # Run a Python application on a Spark standalone cluster
./bin/spark-submit \
--master spark://207.184.161.138:7077 \
examples/src/main/python/pi.py \
1000 # Run on a Mesos cluster in cluster deploy mode with supervise
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master mesos://207.184.161.138:7077 \
--deploy-mode cluster \
--supervise \
--executor-memory 20G \
--total-executor-cores 100 \
http://path/to/examples.jar \
1000

主-MasterURL

传递给Spark的主URL可以采用以下格式之一:

主网址 含义
local 使用一个工作线程在本地运行Spark(即完全没有并行)。
local[K] 使用K工作线程本地运行Spark(理想情况下,将其设置为机器上的核心数)。
local[K,F] 使用K工作线程和F maxFailures在本地运行Spark(有关此变量的解释,请参阅spark.task.maxFailures
local[*] 使用与本机逻辑内核一样多的工作线程在本地运行Spark。
local[*,F] 使用与本机上的逻辑内核和F maxFailures一样多的工作线程在本地运行Spark。
spark://HOST:PORT 连接到给定的Spark独立群集主机。该端口必须是主设备配置使用的端口,默认为7077。
spark://HOST1:PORT1,HOST2:PORT2 使用Zookeeper连接到具有备用主站的给定Spark独立群集。该列表必须包含使用Zookeeper设置的高可用性群集中的所有主控主机。该端口必须是每个主设备配置使用的,默认为7077。
mesos://HOST:PORT 连接到给定的Mesos群集。端口必须是您配置使用的端口,默认为5050。或者,对于使用ZooKeeper的Mesos集群,请使用mesos://zk://...。要提交--deploy-mode cluster,主机:端口应配置为连接到MesosClusterDispatcher
yarn 连接到YARN群集 clientcluster模式取决于的值--deploy-mode。群集的位置将根据HADOOP_CONF_DIRYARN_CONF_DIR变量找到。

./bin/spark-submit --name "My app" --master local[4] --conf spark.eventLog.enabled=false --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar

  在使用spark-submit提交spark应用程序的时候,需要注意以下几点:
  • 集群外的客户机向Spark Standalone部署Spark应用程序时,要注意事先实现该客户机和Spark Standalone之间的SSH无密码登录。
  • 向YARN部署spark应用程序的时候,注意executor-memory的大小,其内存加上container要使用的内存(默认值是1G)不要超过NM可用内存,不然分配不到container来运行executor。

Spark记录-spark-submit学习的更多相关文章

  1. Spark记录-官网学习配置篇(一)

    参考http://spark.apache.org/docs/latest/configuration.html Spark提供三个位置来配置系统: Spark属性控制大多数应用程序参数,可以使用Sp ...

  2. Spark记录-官网学习配置篇(二)

    ### Spark SQL Running the SET -v command will show the entire list of the SQL configuration. #scala/ ...

  3. Spark记录-Spark性能优化解决方案

    Spark性能优化的10大问题及其解决方案 问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism.通常,r ...

  4. Spark记录-spark编程介绍

    Spark核心编程 Spark 核心是整个项目的基础.它提供了分布式任务调度,调度和基本的 I/O 功能.Spark 使用一种称为RDD(弹性分布式数据集)一个专门的基础数据结构,是整个机器分区数据的 ...

  5. Spark记录-spark介绍

    Apache Spark是一个集群计算设计的快速计算.它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理.这是一个 ...

  6. Spark记录-SparkSQL相关学习

    $spark-sql  --help  查看帮助命令 $设置任务个数,在这里修改为20个 spark-sql>SET spark.sql.shuffle.partitions=20; $选择数据 ...

  7. Spark记录-Spark on Yarn框架

    一.客户端进行操作 1.根据yarnConf来初始化yarnClient,并启动yarnClient2.创建客户端Application,并获取Application的ID,进一步判断集群中的资源是否 ...

  8. Spark记录-Spark性能优化(开发、资源、数据、shuffle)

    开发调优篇 原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD:接着对这个RDD执行某个算子操作,然后得到 ...

  9. Spark记录-spark与storm比对与选型(转载)

    大数据实时处理平台市场上产品众多,本文着重讨论spark与storm的比对,最后结合适用场景进行选型. 一.spark与storm的比较 比较点 Storm Spark Streaming 实时计算模 ...

  10. Spark记录-Spark On YARN内存分配(转载)

    Spark On YARN内存分配(转载) 说明 按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式.yarn-cluster模式. ...

随机推荐

  1. [C#源代码]使用SCPI指令对通信端口(RS232/USB/GPIB/LAN)进行仪器编程

    本文为原创文章.源代码为原创代码,如转载/复制,请在网页/代码处明显位置标明原文名称.作者及网址,谢谢! 本软件是基于NI-VISA/VISA32(Virtual Instrument Softwar ...

  2. Egret(白鹭引擎)——“TypeError: Cannot read property 'asCom' of null”

    前言 相信我,这个错误新手都不陌生:TypeError: Cannot read property 'asCom' of null 还有,一定要看我上一篇,哦不(人家应该是报了这个错,才找到看到这篇文 ...

  3. Selenium和TestNG

    本文档由Felipe Knorr Kuhn撰写,并根据其博客上发布的一系列文章进行改编. 建模您的测试用例 在编写测试用例之前,您需要知道如何验证以及将要验证的内容.让我们使用WordPress “创 ...

  4. [Unity]制作游戏中名字板的过程记录

    先大概说一下需求: 1 每个模型上都要有名字板:人.怪.npc等等. 2 名字板上会显示:名字(文字).血条(图片)等 3 因为是透视相机,名字板离得太近会变得超大,且主角移动,名字板的位置相对于相机 ...

  5. docker 学习笔记(1)--常用命令

    docker pull---- 获取image(镜像)docker build---- 创建image(镜像)docker images ----查询所有的image(镜像)docker run--- ...

  6. idou老师教你学istio :基于角色的访问控制

    istio的授权功能,也称为基于角色的访问控制(RBAC),它为istio服务网格中的服务提供命名空间级别.服务级别和方法级别的访问控制.基于角色的访问控制具有简单易用.灵活和高性能等特性.本文介绍如 ...

  7. cloudflare 加https、加SSL(加CF处理)实操流程

    建站过程中,少不了SSL证书等cf添加操作,cf,即cloudflare的简写 首先,点击如图“Add site”,弹出输入框后,填写已在如阿里云.goDaddy.freedom等域名平台购买的域名: ...

  8. 【Alpha】第三次Scrum meeting

    今日任务一览: 导航栏诞生 前期准备的Latex文本将撰写完毕 生成燃尽图的问题已经解决 姓名 今日完成任务 所耗时间 刘乾 用Github成功生成了燃尽图(真是不容易啊...),与架构师继续每日面基 ...

  9. 《Linux内核设计与实现》第四章学习笔记——进程调度

                                                                        <Linux内核设计与实现>第四章学习笔记——进程调 ...

  10. 20135327郭皓--Linux内核分析第三周 构造一个简单的Linux系统MenuOS

    Linux内核分析第三周  构造一个简单的Linux系统MenuOS 前提回顾 1.计算机是如何工作的三个法宝 1.存储程序计算机 2.函数调用堆栈 3.中断 2.操作系统的两把宝剑 中断上下文的切换 ...