Spark异常：A master URL must be set in your configuration处理记录

问题描述：

　项目中一位同事提交了一部分代码，代码分为一个抽象类，里面含有sparkcontent，sparkSession对象；然后又三个子类实例化上述抽象类，这三个子类处理三个任务，最后在同一个Main类，里面调用这个子类的处理任务的方法，进行计算；在本地（local）运行，一切正常，部署到测试服务器，会报如下异常：

18/07/03 14:11:58 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, emr-worker-1.cluster-65494, executor 1): java.lang.ExceptionInInitializerError

	at task.api_monitor.HttpStatusTask$$anonfun$2.apply(HttpStatusTask.scala:91)

	at task.api_monitor.HttpStatusTask$$anonfun$2.apply(HttpStatusTask.scala:85)

	at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)

	at org.apache.spark.util.collection.ExternalSorter.insertAll(ExternalSorter.scala:193)

	at org.apache.spark.shuffle.sort.SortShuffleWriter.write(SortShuffleWriter.scala:63)

	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)

	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)

	at org.apache.spark.scheduler.Task.run(Task.scala:108)

	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:338)

	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)

	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)

	at java.lang.Thread.run(Thread.java:748)

Caused by: org.apache.spark.SparkException: A master URL must be set in your configuration

	at org.apache.spark.SparkContext.(SparkContext.scala:376)

	at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2516)

	at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:918)

	at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:910)

	at scala.Option.getOrElse(Option.scala:121)

	at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:910)

	at task.AbstractApiMonitorTask.(AbstractApiMonitorTask.scala:22)

	at task.api_monitor.HttpStatusTask$.(HttpStatusTask.scala:18)

	at task.api_monitor.HttpStatusTask$.(HttpStatusTask.scala)

	... 12 more

　　分析异常发现是由于没有指定Master的URL导致子类不能正常初始化。

解决：查找网上资源，结合自身代码结构发现，在spark运行日志中（运行模式是yarn）会有三个yarn.client出现，说明每个子类任务都会有一个相对应的driver，这个说明每个子类的任务开始都会实例化自身的sparkSession，但是一个spark 应用对应了一个main函数，放在一个driver里,driver里有一个对应的实例（spark context).driver 负责向各个节点分发资源以及数据。那么如果你把创建实例放在了main函数的外面，driver就没法分发了。所以如果这样写在local模式下是可以成功的，在分布式就会报错。（参考来源：https://blog.csdn.net/sinat_33761963/article/details/51723175）因此，改变代码结构把抽象类中的公有的资源，在main函数中创建，顺利解决问题。

总结：出现上述问题，主要是对spark的分布式运行理解的不是很透彻，仍需努力提升！

Spark异常：A master URL must be set in your configuration处理记录的更多相关文章

【原创】大叔问题定位分享（10）提交spark任务偶尔报错 org.apache.spark.SparkException: A master URL must be set in your configuration
spark 2.1.1 一问题重现问题代码示例 object MethodPositionTest { val sparkConf = new SparkConf().setAppName(&qu ...
【Spark】ScalaIDE运行spark，A master URL must be set in your configuration
or SparkSession.master("local")
启动tomcat后struts框架报异常严重: Exception starting filter struts2 Unable to load configuration.
启动tomcat后struts框架报异常严重: Exception starting filter struts2 Unable to load configuration. 出现此异常是因为,str ...
spark配置双master时一直处于standby的情况
一.情况描述按照如下配置,使用zookeeper监听 SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspa ...
Spark系列(六)Master注册机制和状态改变机制
各组件的注册流程如下图: 注册机制源码说明: 入口:org.apache.spark.deploy.master文件下的receiveWithLogging方法中的case RegisterAppli ...
Spark系列(五)Master主备切换机制
Spark Master主备切换主要有两种机制,之中是基于文件系统,一种是基于Zookeeper.基于文件系统的主备切换机制需要在Active Master挂掉后手动切换到Standby Master ...
Spark分析之Master
override def preStart() { logInfo("Starting Spark master at " + masterUrl) webUi.bind() // ...
spark异常篇-OutOfMemory:GC overhead limit exceeded
执行如下代码时报错 # encoding:utf-8 from pyspark import SparkConf, SparkContext from pyspark.sql import Spark ...
Spark application注册master机制
直接上Master类的代码: case RegisterApplication(description) => { if (state == RecoveryState.STANDBY) { / ...

随机推荐

微软在WPC 2015中为“伙伴们”带来了什么？
在微软 WPC 2015(微软全球合作伙伴大会)上,微软全球渠道总监 Phil Sorgen 指出,微软总营收的 92% 来自合作伙伴.这句话验证了微软与合作伙伴间日益紧密的合作关系,也点出了本次大会 ...
【Oracle】查看被锁的表和解锁
--以下几个为相关表SELECT * FROM v$lock;SELECT * FROM v$sqlarea;SELECT * FROM v$session;SELECT * FROM v$proce ...
Git小抄
生存必备分支忽略已提交的文件版本回退撤销修改删除文件修改最后一次提交的说明信息 tag 生存必备 git init git add <file1> <file2> ...
杀windows进程
1.首先是启动windows的命令窗口,按键盘上的windows+R,然后在输入框中输入cmd,既可以启动命令窗口 2.进入windows命令窗口之后,输入命令,输入netstat -ano然后回车, ...
awk 截取某段时间的日志
好久没有截取nginx/haproxy 中的日志了,竟有点不熟悉了. 记录一下,以免以后忘记. NGINX 日志格式: 192.168.1.26 - - [14/Sep/2017:16:48:42 ...
Android App性能优化（一）之布局优化
当创建复杂布局的时候,我们会在xml 文件中添加大量的ViewGroup和View.伴随着每次迭代,View树的层次越来越深,界面加载速度越来越慢,消耗的内存也越来越多.当您的程序出现加载时短暂黑屏或 ...
python的进度条实现
进度条最主要的问题就是所有字符全部在同一行,而且可以修改.然而当执行print语句的时候,python会在打印完这个语句的同时,在结尾加上换行‘\n’,这就导致在控制台下一旦被print之后就无法修改 ...
WebSocket消息推送
WebSocket协议是基于TCP的一种新的网络协议,应用层,是TCP/IP协议的子集. 它实现了浏览器与服务器全双工(full-duplex)通信,客户端和服务器都可以向对方主动发送和接收数据.在J ...
ERROR: Repository not found. ////Git, but is not registered in the Settings.
1.ERROR: Repository not found. 这个问题是因为在你推送的github账户中,并没有这个Repository. 解决方法: 1)检查自己的github中的Repositor ...
ajax传递数组，后台接收为null解决方法
traditional:true,加上这个就好,默认为false,即允许深度序列化参数,但是servlet api不支持,所有设为true阻止就好了. $.ajax({ type:'post', ur ...

Spark异常：A master URL must be set in your configuration处理记录

Spark异常：A master URL must be set in your configuration处理记录的更多相关文章

随机推荐

热门专题