spark任务提交到yarn上命令总结

1. 使用spark-submit提交任务

集群模式执行 SparkPi 任务，指定资源使用,指定eventLog目录

spark-submit  --class org.apache.spark.examples.SparkPi \

    --master yarn \

    --conf spark.eventLog.dir=hdfs://dbmtimehadoop/tmp/spark2 \

    --deploy-mode cluster \

    --driver-memory 4g \

    --executor-memory 2g \

    --executor-cores 1 \

    --queue thequeue \

    $SPARK_HOME/examples/jars/spark-examples*.jar \

    10

不指定资源，使用yarn的默认资源分配。

spark-submit  --class org.apache.spark.examples.SparkPi \

    --master yarn \

    --conf spark.eventLog.dir=hdfs://dbmtimehadoop/tmp/spark2 \

    --deploy-mode cluster \

    $SPARK_HOME/examples/jars/spark-examples*.jar 10

动态的加载spark配置

./bin/spark-submit --name "My app" --master local[4] --conf spark.eventLog.enabled=false

  --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar

客户端模式执行 SparkPi 任务:spark-submit

spark-submit  --class org.apache.spark.examples.SparkPi \

    --conf spark.eventLog.dir=hdfs://dbmtimehadoop/tmp/spark2 \

    --master yarn \

    --deploy-mode client \

    --driver-memory 4g \

    --executor-memory 2g \

    --executor-cores 1 \

    $SPARK_HOME/examples/jars/spark-examples*.jar \

    10

2. 使用spark-shell提交任务到yarn上

使用spark-shell测试wordcont:使用-jars加载任务运行依赖的jar包，多个jar包以逗号分隔。

spark-shell --master yarn --conf spark.eventLog.dir=hdfs://dbmtimehadoop/tmp/spark2 --jars /home/fxzhao/hadoop-lzo-0.4.20-SNAPSHOT.jar

在随后的终端框中如下scala脚本：统计hdfs://dbmtimehadoop/tmp/fuxin.zhao/wordcounttest 中各个单词的数量。

在scala终端中输入 “：paste”可以输入多条scala语句。按CRTL+d 结束。

val textFile = sc.textFile("hdfs://dbmtimehadoop/tmp/fx.zhao/wordcounttest")

val counts = textFile.flatMap(line => line.split(" "))

                 .map(word => (word, 1))

                 .reduceByKey(_ + _)

counts.saveAsTextFile("hdfs://dbmtimehadoop/tmp/fx.zhao/wordcounttest_res")

##########将统计结果按照key排序。

val textFile = sc.textFile("hdfs://dbmtimehadoop/tmp/fx.zhao/wordcounttest")

val counts = textFile.flatMap(line => line.split(" "))

                 .map(word => (word, 1))

                 .reduceByKey(_ + _)

                 .sortByKey()

counts.saveAsTextFile("hdfs://dbmtimehadoop/tmp/fx.zhao/wordcounttest_res")

Spark-shell 启动时添加添加依赖jar包：

spark-shell --conf spark.eventLog.dir=hdfs://dbmtimehadoop/tmp/spark2 --jars $HADOOP_HOME/share/hadoop/common/lib/hadoop-lzo-0.4.20-SNAPSHOT.jar

3.spark-sql提交任务到spark的两种方式：

本地模式：

$ spark-sql --master local
yarn模式

$ spark-sql --master yarn

//启动spark-sql时指定eventLog的位置等其他配置（可以通过--conf 来配置修改默认的多个参数）。

$ spark-sql --master yarn --conf spark.eventLog.dir=hdfs://dbmtimehadoop/tmp/spark2 --conf spark.sql.hive.metastore.version=2.1.0

spark任务提交到yarn上命令总结的更多相关文章

Spark作业提交至Yarn上执行的一个异常
(1)控制台Yarn(Cluster模式)打印的异常日志: client token: N/A diagnostics: Application application_1584359 ...
【原创】大叔经验分享（6）Oozie如何查看提交到Yarn上的任务日志
通过oozie job id可以查看流程详细信息,命令如下: oozie job -info 0012077-180830142722522-oozie-hado-W 流程详细信息如下: Job ID ...
Spark程序提交到Yarn集群时所遇异常
Exception 1:当我们将任务提交给Spark Yarn集群时,大多会出现以下异常,如下: 14/08/09 11:45:32 WARN component.AbstractLifeCycle: ...
spark（四）yarn上的运行模式
架构图 yarn-cluster yarn-client 区别 Yarn-cluster spark的driver运行在applicationMaster内,启动流程为: 这张图可能比较直观 Yarn ...
在Yarn上运行spark-shell和spark-sql命令行
转载自:http://lxw1234.com/archives/2015/08/448.htm 如果你已经有一个正常运行的Hadoop Yarn环境,那么只需要下载相应版本的Spark,解压之后做为S ...
Yarn上运行spark-1.6.0
目录目录 1 1. 约定 1 2. 安装Scala 1 2.1. 下载 2 2.2. 安装 2 2.3. 设置环境变量 2 3. 安装Spark 2 3.1. 下载 2 3.2. 安装 2 3.3. ...
运行在YARN上的MapReduce应用程序（以MapReduce为例）
client作用:提交一个应用程序查看一个应用程序的运行状态(通过application master) 第一步:提交MR程序到ResourceManager,ResourceManager为这个应用 ...
客户端MapReduce提交到YARN过程
在Mapreduce v1中是使用JobClient来和JobTracker交互完成Job的提交,用户先创建一个Job,通过JobConf设置好参数,通过JobClient提交并监控Job的进展,在J ...
【原创】大叔经验分享（1）在yarn上查看hive完整执行sql
hive执行sql提交到yarn上的任务名字是被处理过的,通常只能显示sql的前边一段和最后几个字符,这样就会带来一些问题: 1)相近时间提交了几个相近的sql,相互之间无法区分: 2)一个任务有问题 ...

随机推荐

Ruby中数组的遍历
转自:http://www.jianshu.com/p/8de9b60f9350 Ruby中有几个常用的遍历数组的方法,本人经常容易搞混.这里列出来总结一下. each: 从数组中取出一个元素,作为某 ...
Oracle VM VirtualBox安裝Windows 2000失败
问题: VirtualBox下安装Windows2000,设置网络后进入最后一步,复制组件……然后就是重启:再试还是重启! 解决: 在Oracle网站上查了一下资料:http://www.virt ...
CFGym 101505I 题解
一.题目链接 http://codeforces.com/gym/101505 二.题意这题其实主要就是题意,理解题意后,就是水题了.我想了下,主要原因就是这几点: 1.题意太过英文化,很多句子不能 ...
android中一个评分的控件
RatingBar android中一个评分的控件如何使用 Android Studio下: dependencies { compile 'com.hedgehog.ratingbar:app:1 ...
基于 Tornado 实现的 Web 站点反向代理
因为一个奇怪的需求,使用 Python 和 Tornado 框架实现了一个 Web 站点的反向代理.实现的功能是这样: 假设这个反向代理网站的地址是 http://www.example.com 访问 ...
Spring集成的Quartz 并发
以前经常在任务调度程序中使用Spring集成的Quartz,这种方式可以用简单的声明式配置即可实现定时任务,并结合了Spring自身的Bean的管理功能,非常方便.配置样本如下: <bean i ...
「小程序JAVA实战」小程序开源搜索组件（53）
转自:https://idig8.com/2018/09/22/xiaochengxujavashizhanxiaochengxukaiyuansousuozujian52/ 上次说了可以在视频中通过 ...
jquery中的data-icon和data-role
转自:https://blog.csdn.net/Sayesan/article/details/83378524 jquery中的data-icon和data-role data-role参数 ...
zk分布式锁-排它锁简单实现
package Lock; import java.util.concurrent.CountDownLatch;import java.util.concurrent.TimeUnit;import ...
7.25 8figting！
TEXT 87 Fund management基金管理 A Miller's tale 米勒传奇(陈继龙编译) Dec 7th 2006 From The Economist print edit ...

spark任务提交到yarn上命令总结

spark任务提交到yarn上命令总结

1. 使用spark-submit提交任务

2. 使用spark-shell提交任务到yarn上

3.spark-sql提交任务到spark的两种方式：

spark任务提交到yarn上命令总结的更多相关文章

随机推荐

热门专题