spark 官方文档(1)——提交应用程序
Spark版本:1.6.2
spark-submit提供了在所有集群平台提交应用的统一接口,你不需要因为平台的迁移改变配置。Spark支持三种集群:Standalone、Apache Mesos和Hadoop Yarn。
绑定应用程序依赖库
如果你的应用程序依赖其他项目,需要将其一起打包,打包时需要包括依赖的第三方库。sbt和maven都有装配插件,可以指定hadoop和spark版本,而不将其打入jar包中,因为hadoop和spark的库由集群环境提供。然后通过spark安装目录下的spark-submit工具提交你的应用程序。
对于python程序,需要添加--py-files参数,若有多个Python文件,推荐将其打包zip或egg,然后执行。
spark-submit提交应用
spark-submit支持对三种集群提交应用,主要语法如下:
./bin/spark-submit \
--class <main-class> \
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]
参数详解:
- --class: 应用程序的入口,例如
org.apache.spark.example.SpariPi
- --master: 指定集群类型,例如local(本地)、spark://master:7077(stanalone模式)、yarn-client
- --deploy-mode: 是否将Driver部署到worker节点,默认是在client
- --conf: 配置spark环境,在引号中使用key=value形式
- appliaction-jar: 指定应用程序的jar包
- application-arguments: 应用程序的参数
还有一些针对各个集群平台的非通用的设置,例如使用Spark standalone cluster时,可以配置--supervise
参数,确保driver在返回值为非零时,自动重启。下面是一些常用的配置用例:
# Run application locally on 8 cores
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[8] \
/path/to/examples.jar \
100
# Run on a Spark standalone cluster in client deploy mode
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
1000
# Run on a Spark standalone cluster in cluster deploy mode with supervise
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--deploy-mode cluster \
--supervise \
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
1000
# Run on a YARN cluster
export HADOOP_CONF_DIR=XXX
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \ # can be client for client mode
--executor-memory 20G \
--num-executors 50 \
/path/to/examples.jar \
1000
# Run a Python application on a Spark standalone cluster
./bin/spark-submit \
--master spark://207.184.161.138:7077 \
examples/src/main/python/pi.py \
1000
# Run on a Mesos cluster in cluster deploy mode with supervise
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master mesos://207.184.161.138:7077 \
--deploy-mode cluster \
--supervise \
--executor-memory 20G \
--total-executor-cores 100 \
http://path/to/examples.jar \
1000
Master URLs
下面对spark-submit的--master参数进行介绍,主要包含以下几种类型:
Master URL | 简介 |
---|---|
local | 在本地使用一个worker线程运行spark |
local[K] | 在本地使用K个worker线程运行spark |
local[*] | 在本地运行CPU核心数个worker线程 |
spark://HOST: PORT | 连接到Spark standalone集群的master节点,默认port是7077 |
mesos://HOST: PORT | 连接到mesos集群,默认port是5050 |
yarn | 连接到yarn集群,通过--deploy-mode指定yarn-client和yarn-cluster两种模式。集群的位置通过HADOOP_CONF_DIR或YARN_CONF_DIR变量配置 |
通过文件加载配置
Spark可以通过配置文件或应用代码、或者spark-submit参数加载相关的配置。默认情况下,spark读取conf/spark-defaults.conf配置。默认的spark配置参见下一文档。
若是通过代码设置spark.master参数,则--master参数会被忽略。一般来说,可以通过SparkConf配置的属性优先级最高,其次是spark-submit的属性,最后是配置文件。代码优先级 > spark-submit参数 > 配置文件。
先进的依赖管理
spark-submit的**--jars**选项会根据集群不同选择不同的处理策略。spark支持以下几种URL模式,并使用不同策略:
- file: 绝对的文件路径,各个worker通过http服务从driver节点copy文件;
- hdfs:http: https ftp: 通过相应的协议拉取jar文件到本地;
- local: 这种URL代表在每个worker的本地路径下都已经存在该文件,不会触发网络IO
由于每个worker都会拷贝文件到本地,如何清理是个问题。yarn会自动定期处理,spark standalone集群可以配置spark.worker.cleanup.appDataTtl
配置保存的时间,默认是7天。
用户还可以通过--packages
包含其他的依赖,这些依赖库的传播依赖也会被包含。--repositories
可以包含额外的库仓储。这些参数在pyspark, spark-shell, spark-submit
中都支持。
spark测试RDD所占存储
(获取部分记录,并根据RDD记录数对RDD所占空间进行预估):
def getTotalSize(rdd: RDD[Row]): Long = {
// This can be a parameter
val NO_OF_SAMPLE_ROWS = 10l;
val totalRows = rdd.count();
var totalSize = 0l
if (totalRows > NO_OF_SAMPLE_ROWS) {
val sampleRDD = rdd.sample(true, NO_OF_SAMPLE_ROWS)
val sampleRDDSize = getRDDSize(sampleRDD)
totalSize = sampleRDDSize.*(totalRows)./(NO_OF_SAMPLE_ROWS)
} else {
// As the RDD is smaller than sample rows count, we can just calculate the total RDD size
totalSize = getRDDSize(rdd)
} totalSize
} def getRDDSize(rdd: RDD[Row]) : Long = {
var rddSize = 0l
val rows = rdd.collect()
for (i <- 0 until rows.length) {
rddSize += SizeEstimator.estimate(rows.apply(i).toSeq.map { value => value.asInstanceOf[AnyRef] })
} rddSize
}
更多信息
当部署好应用程序后,集群模式概述对分布式执行、如何监控和调试程序进行了阐述。
spark 官方文档(1)——提交应用程序的更多相关文章
- Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
- Spark官方文档——本地编写并运行scala程序
快速开始 本文将介绍如何用scala.java.python编写一个spark单击模式的程序. 首先你只需要在一台机器上成功建造Spark:做法: 进入Spark的根目录,输入命令:$ sbt/sbt ...
- Spark 官方文档(2)——集群模式
Spark版本:1.6.2 简介:本文档简短的介绍了spark如何在集群中运行,便于理解spark相关组件.可以通过阅读应用提交文档了解如何在集群中提交应用. 组件 spark应用程序通过主程序的Sp ...
- 《Spark 官方文档》在Mesos上运行Spark
本文转自:http://ifeve.com/spark-mesos-spark/ 在Mesos上运行Spark Spark可以在由Apache Mesos 管理的硬件集群中运行. 在Mesos集群中使 ...
- spark api之一:Spark官方文档 - 中文翻译
转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linking with Spark) 3 初始化Spark(Initi ...
- 【译】Spark官方文档——Spark Configuration(Spark配置)
注重版权,尊重他人劳动 转帖注明原文地址:http://www.cnblogs.com/vincent-hv/p/3316502.html Spark主要提供三种位置配置系统: 环境变量:用来启动 ...
- Spark 官方文档(5)——Spark SQL,DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
- 【译】Spark官方文档——编程指南
本文翻自官方博客,略有添加:https://github.com/mesos/spark/wiki/Spark-Programming-Guide Spark发指南 从高的面看,其实每一个Spark的 ...
- Spark 官方文档(4)——Configuration配置
Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数 通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量 通过lo ...
随机推荐
- Spring事物管理
spring事务配置的五种方式 前段时间对Spring的事务配置做了比较深入的研究,在此之间对Spring的事务配置虽说也配置过,但是一直没有一个清楚的认识.通过这次的学习发觉Spring的事务配置只 ...
- 00 Cadence学习总目录
这个系列是我学习于博士CADENCE视频教程60讲时,一边学一边记的笔记.使用的CADENCE16.6. 01-03课 了解软件 创建工程 创建元件库 分裂元件的制作方法 04课 正确使用hetero ...
- [No0000A8]Word中设置图片下的题注及插入多级列表编号
1.什么是题注? 2.怎么实现一个可以自动更新的题注? 只有先定义好文档编号后,才可以设置出正确的图片下标题注. 文章的结构可以通过导航窗口导航. 导航窗口打开方式. 3.设置好文档编号后,怎样插入 ...
- Fabio
Fabio 安装和简单使用 Fabio(Go 语言):https://github.com/eBay/fabio Fabio 是一个快速.现代.zero-conf 负载均衡 HTTP(S) 路由器,用 ...
- [LeetCode] Additive Number 加法数
Additive number is a positive integer whose digits can form additive sequence. A valid additive sequ ...
- ASP.NET - Web API,从简单类型到复杂类型的参数传递用例,以及传递简单string类型的解决办法
一,简单类型的传值 比如 public Users Get(int id) ,它可以使用两种方式获取: api/default/ $.get("/api/default",{id: ...
- 用vue.js学习es6(二):let和const使用
一.运行及关闭运行: 在上一节中我们用shift+右击在C:\vue\es6文件夹中打开命令行使用:npm run dev,打开了我们的vue界面. 如果要关闭则在命令行中按住ctrl+C则可以关闭. ...
- 【转】微软教学:三种方法屏蔽Win7/Win8.1升级Win10推送
原文地址:http://www.ithome.com/html/win10/199961.htm 微软在2015年6月就开启了Win10升级推送工作,主要是靠<获取Windows10>工具 ...
- JVM_七种垃圾收集器介绍
本文中的垃圾收集器研究背景为:HotSpot+JDK7 一.垃圾收集器概述 如上图所示,垃圾回收算法一共有7个,3个属于年轻代.三个属于年老代,G1属于横跨年轻代和年老代的算法. JVM会从年轻代和年 ...
- jQuery 邮箱下拉列表自动补全
综述 我想大家一定见到过,在某个网站填写邮箱的时候,还没有填写完,就会出现一系列下拉列表,帮你自动补全邮箱的功能.现在我们就用jQuery来实现一下. 博主原创代码,如有代码写的不完善的地方还望大家多 ...