spark 2.1.1

一问题重现

问题代码示例

object MethodPositionTest {

  val sparkConf = new SparkConf().setAppName("MethodPositionTest")

  val sc = new SparkContext(sparkConf)

  val spark = SparkSession.builder().enableHiveSupport().getOrCreate()

  def main(args : Array[String]) : Unit = {

    val cnt = spark.sql("select * from test_table").rdd.map(item => mapFun(item.getString(0))).count

    println(cnt)

  }

  def mapFun(str : String) : String = "p:" + str

}

当如下3行代码放到main外时

val sparkConf = new SparkConf().setAppName(getName)

val sc = new SparkContext(sparkConf)

val spark = SparkSession.builder().enableHiveSupport().getOrCreate()

有一定几率报错：

Caused by: java.lang.ExceptionInInitializerError

    at app.package.AppClass$$anonfun$1.apply(AppClass.scala:208)

at org.apache.spark.sql.execution.MapElementsExec$$anonfun$8$$anonfun$apply$1.apply(objects.scala:237)

at org.apache.spark.sql.execution.MapElementsExec$$anonfun$8$$anonfun$apply$1.apply(objects.scala:237)

at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)

at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)

at scala.collection.Iterator$class.foreach(Iterator.scala:893)

at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)

at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59)

at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:104)

at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:48)

at scala.collection.TraversableOnce$class.to(TraversableOnce.scala:310)

at scala.collection.AbstractIterator.to(Iterator.scala:1336)

at scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:302)

at scala.collection.AbstractIterator.toBuffer(Iterator.scala:1336)

at scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:289)

at scala.collection.AbstractIterator.toArray(Iterator.scala:1336)

at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$13.apply(RDD.scala:936)

at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$13.apply(RDD.scala:936)

at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1951)

at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1951)

at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)

at org.apache.spark.scheduler.Task.run(Task.scala:99)

    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)

at java.lang.Thread.run(Thread.java:745)

Caused by: org.apache.spark.SparkException: A master URL must be set in your configuration

    at org.apache.spark.SparkContext.<init>(SparkContext.scala:379)

at app.package.AppClass$.<clinit>(AppClass.scala)

二问题解析

MethodPositionTest 定义了一个匿名函数anonfun，这个匿名函数在RDD.map中调用，即在Executor中执行，匿名函数中又依赖mapFun方法，触发类的初始化：MethodPositionTest$.<clinit>，初始化时会执行main外的spark初始化代码，即在Executor中创建SparkConf和SparkContext，这是不应该发生的，一个spark应用中只能有一个SparkContext并且应该在Driver端而不是Executor，而且发生之后会导致错误，代码如下：

org.apache.spark.SparkContext

  try {

    _conf = config.clone()

    _conf.validateSettings()

    if (!_conf.contains("spark.master")) {

      throw new SparkException("A master URL must be set in your configuration")

    }

问题1）为什么在Driver端不会报错找不到master，而在Executor端会报错

Spark应用代码如下：

val sparkConf = new SparkConf().setAppName(getName)

这里SparkConf只设置了AppName，为什么在Driver端不会报错找不到master，而在Executor端会报错，这里需要看Spark Submit的执行过程，详见 https://www.cnblogs.com/barneywill/p/9820684.html

Driver端执行时SparkSubmit会将各种参数包括命令行、配置文件、系统环境变量等，统一设置到系统环境变量

for ((key, value) <- sysProps) {

System.setProperty(key, value)

}

然后SparkConf会默认从系统环境变量中加载配置

for ((key, value) <- Utils.getSystemProperties if key.startsWith("spark.")) {

set(key, value, silent)

}

所以Driver端的SparkConf会包含所有的参数，但是Executor端则没有。

问题2）当spark相关的初始化代码在main外时，为什么有时报错，有时不报错

具体情形如下：
1）如果main里边的transformation（示例中的map方法）不依赖外部函数调用，正常；
2）如果main里边的transformation（示例中的map方法）依赖main里的函数，报错；
3）如果main里边的transformation（示例中的map方法）依赖main外的函数，报错；

这里可以通过反编译代码来看原因，示例MethodPositionTest的反编译代码如下：

public final class MethodPositionTest$

{

         public static final MethodPositionTest$ MODULE$ = this;

         private final SparkConf sparkConf = (new SparkConf()).setAppName("MethodPositionTest");

         private final SparkContext sc = new SparkContext(sparkConf());

         private final SparkSession spark;

         public SparkConf sparkConf()

         {

                  return sparkConf;

         }

         public SparkContext sc()

         {

                  return sc;

         }

         public SparkSession spark()

         {

                  return spark;

         }

         public String mapFun(String str)

         {

                  return (new StringBuilder()).append("p:").append(str).toString();

         }

         public void main(String args[])

         {

                  long cnt = spark().sql("select * from test_table").rdd().map(new Serializable() {

                          public static final long serialVersionUID = 0L;

                          public final String apply(Row item)

                          {

                                   return MethodPositionTest$.MODULE$.mapFun(item.getString(0));

                          }

                          public final volatile Object apply(Object v1)

                          {

                                   return apply((Row)v1);

                          }

                  }, ClassTag$.MODULE$.apply(java/lang/String)).count();

                  Predef$.MODULE$.println(BoxesRunTime.boxToLong(cnt));

         }

         private MethodPositionTest$()

         {

                  spark = SparkSession$.MODULE$.builder().enableHiveSupport().getOrCreate();

         }

         static

         {

                  new MethodPositionTest$();

         }

}

可见这里的匿名内部类依赖类MethodPositionTest$的方法mapFun，所以会触发类MethodPositionTest$的加载以及静态代码块执行，触发报错；

综上，不建议将spark的初始化代码放到main外，很容易出问题。

【原创】大叔问题定位分享（10）提交spark任务偶尔报错 org.apache.spark.SparkException: A master URL must be set in your configuration的更多相关文章

【原创】大叔问题定位分享（5）Kafka客户端报错SocketException: Too many open files 打开的文件过多
kafka0.8.1 一问题 10月22号应用系统忽然报错: [2014/12/22 11:52:32.738]java.net.SocketException: 打开的文件过多 [2014/12/ ...
【原创】大叔问题定位分享（29）datanode启动报错：50020端口被占用
集群中有一台datanode一直启动报错如下: java.net.BindException: Problem binding to [$server1:50020] java.net.BindExc ...
【原创】大叔问题定位分享（31）hive metastore报错
hive metastore在建表时报错 [pool-5-thread-2]: MetaException(message:Got exception: java.net.ConnectExcepti ...
Spark异常：A master URL must be set in your configuration处理记录
问题描述: 项目中一位同事提交了一部分代码,代码分为一个抽象类,里面含有sparkcontent,sparkSession对象:然后又三个子类实例化上述抽象类,这三个子类处理三个任务,最后在同一 ...
myeclipse 10 载入新的项目报错Cannot return from outside a function or method
myeclipse 10 载入新的项目报错Cannot return from outside a function or method 解决方法: 方法一: window -->prefere ...
Error- Overloaded method value createDirectStream in error Spark Streaming打包报错
直接上代码 StreamingExamples.setStreamingLogLevels() val Array(brokers, topics) = args // Create context ...
Spark程序编译报错error: object apache is not a member of package org
Spark程序编译报错: [INFO] Compiling 2 source files to E:\Develop\IDEAWorkspace\spark\target\classes at 156 ...
【原创】大叔问题定位分享（8）提交spark任务报错 Caused by: java.lang.ClassNotFoundException: org.I0Itec.zkclient.exception.ZkNoNodeException
spark 2.1.1 一问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkcli ...
【原创】大叔问题定位分享（9）oozie提交spark任务报 java.lang.NoClassDefFoundError: org/apache/kafka/clients/producer/KafkaProducer
oozie中支持很多的action类型,比如spark.hive,对应的标签为: <spark xmlns="uri:oozie:spark-action:0.1"> ...

随机推荐

springboot项目利用Swagger2生成在线接口文档
Swagger简介. Swagger2是一款restful接口文档在线生成和在线调试工具.很多项目团队利用Swagger自动生成接口文档,保证接口文档和代码同步更新.在线调试.简单地说,你可以利用这个 ...
Logstash filter 插件之 grok
本文简单介绍一下 Logstash 的过滤插件 grok. Grok 的主要功能 Grok 是 Logstash 最重要的插件.它可以解析任意文本并把它结构化.因此 Grok 是将非结构化的日志数据解 ...
vue 项目设置实现通过本地手机访问
1.查询ip地址 win+R打开cmd 窗口输入ipconfig 找到IPV4地址 192.168.x.xxx 2.在vue项目config文件夹中的index.js,将localhost换为i ...
Python中getopt()函数的使用
在运行程序时,可能需要根据不同的条件,输入不同的命令行选项来实现不同的功能.目前有短选项和长选项两种格式.短选项格式为"-"加上单个字母选项:长选项为"--"加 ...
MySQL的运算符及其优先级
+++++++++++++++++++++++++++++++++++++++++++标题:MySQL的常见运算符时间:2019年2月23日内容:MySQL的常见运算符重点:主要讲述MySQL常见运算 ...
RPM Database 实战详解
RPM 是 RPM Package Manager 的简写,是发源于 Red-hat 系统的软件管理工具,所以最初的名字叫做 Red-hat Packager Manager.目前,RPM 已发展成为 ...
三、Java多人博客系统-技术架构
多人博客系统1.0版本,架构和技术还是很简单和很传统的. 1.技术前端:jsp.html.css.javascript.jquery.easyui.echarts 后端:spring mvc.Hib ...
TensorFlow深度学习，一篇文章就够了
http://blog.jobbole.com/105602/ 作者: 陈迪豪,就职小米科技,深度学习工程师,TensorFlow代码提交者. TensorFlow深度学习框架 Google不仅是大数 ...
Python装饰器的进阶
带参数的装饰器示例一:Python自带的装饰器函数 from functools import wraps import time def Time(func1): @wraps(func1) de ...
Kubernetes之存储
存储卷概述容器磁盘上的文件的生命周期是短暂的,这就使得在容器中运行重要应用时会出现一些问题.首先,当容器崩溃时,kubelet 会重启它,但是容器中的文件将丢失——容器以干净的状态(镜像最初的状态) ...

【原创】大叔问题定位分享（10）提交spark任务偶尔报错 org.apache.spark.SparkException: A master URL must be set in your configuration

一 问题重现

二 问题解析