spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable

函数代码：

class MySparkJob{

    def entry(spark:SparkSession):Unit={

          def getInnerRsrp(outer_rsrp: Double, wear_loss: Double, path_loss: Double): Double = {

          val innerRsrp: Double = outer_rsrp - wear_loss - (XX) * path_loss

          innerRsrp

        }

        spark.udf.register("getXXX", getXXX _)

        import spark.sql

        sql(s"""|select getInnerRsrp(t10.outer_rsrp,t10.wear_loss,t10.path_loss) as rsrp, xx from yy""".stripMargin)

    }

}

使用spark-submit提交函数时，抛出异常：

User class threw exception: org.apache.spark.SparkException: Task not serializable 

org.apache.spark.SparkException: Task not serializable

    at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:)

    at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:)

    at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:)

    at org.apache.spark.SparkContext.clean(SparkContext.scala:)

    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsWithIndex$.apply(RDD.scala:)

    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsWithIndex$.apply(RDD.scala:)

    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:)

    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:)

    at org.apache.spark.rdd.RDD.withScope(RDD.scala:)

    at org.apache.spark.rdd.RDD.mapPartitionsWithIndex(RDD.scala:)

    at com.dx.fpd_withscenetype.MySparkJob.entry(MySparkJob.scala:)

    at com.dx.App$.main(App.scala:)

    at com.dx.App.main(App.scala)

    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:)

    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:)

    at java.lang.reflect.Method.invoke(Method.java:)

    at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$.run(ApplicationMaster.scala:)

Caused by: java.io.NotSerializableException: com.dx.fpd_withscenetype.MySparkJob

Serialization stack:

    - object not serializable (class: com.dx.fpd_withscenetype.MySparkJob, value: com.dx.fpd_withscenetype.MySparkJob@e4d4393)

    - field (class: com.dx.fpd_withscenetype.MySparkJob$$anonfun$entry$, name: $outer, type: class com.dx.fpd_withscenetype.MySparkJob)

    - object (class com.dx.fpd_withscenetype.MySparkJob$$anonfun$entry$, <function2>)

    - field (class: org.apache.spark.sql.catalyst.expressions.ScalaUDF$$anonfun$, name: func$, type: interface scala.Function2)

    - object (class org.apache.spark.sql.catalyst.expressions.ScalaUDF$$anonfun$, <function1>)

    - field (class: org.apache.spark.sql.catalyst.expressions.ScalaUDF, name: f, type: interface scala.Function1)

    - object (class org.apache.spark.sql.catalyst.expressions.ScalaUDF, UDF:getInnerRsrp(cast(input[, double, true] as int), cast(input[, double, true] as int), cast(input[, double, true] as int)))

    - element of array (index: )

    - array (class [Ljava.lang.Object;, size )

    - field (class: org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$, name: references$, type: class [Ljava.lang.Object;)

    - object (class org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$, <function2>)

    at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:)

    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:)

    at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:)

    at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:)

    ...  more

解决方案：

把当前MySparkJob集成Serializable

class MySparkJob extends Serializable {

    xxx

}

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable的更多相关文章

Spark以yarn方式运行时抛出异常
Spark以yarn方式运行时抛出异常: cluster.YarnClientSchedulerBackend: Yarn application has already exited with st ...
SparkSQL UDF两种注册方式：udf() 和 register()
调用sqlContext.udf.register() 此时注册的方法只能在sql()中可见,对DataFrame API不可见用法:sqlContext.udf.register("m ...
Pyspark 使用 Spark Udf 的一些经验
起初开始写一些 udf 的时候感觉有一些奇怪,在 spark 的计算中,一般通过转换(Transformation) 在不触发计算(Action) 的情况下就行一些预处理.udf 就是这样一个好用的东 ...
spark udf 初识初用
直接上代码,详见注释 import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkContext, Spark ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本课主题通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
[Spark內核] 第42课：Spark Broadcast内幕解密：Broadcast运行机制彻底解密、Broadcast源码解析、Broadcast最佳实践
本课主题 Broadcast 运行原理图 Broadcast 源码解析 Broadcast 运行原理图 Broadcast 就是将数据从一个节点发送到其他的节点上; 例如 Driver 上有一张表,而 ...
Redis on Spark:Task not serializable
We use Redis on Spark to cache our key-value pairs.This is the code: import com.redis.RedisClient va ...
Spark Broadcast内幕解密：Broadcast运行机制彻底解密、Broadcast源码解析、Broadcast最佳实践
本课主题 Broadcast 运行原理图 Broadcast 源码解析 Broadcast 运行原理图 Broadcast 就是将数据从一个节点发送到其他的节点上; 例如 Driver 上有一张表,而 ...

随机推荐

通过Beego将之前实现的短url项目实现
正好通过这个小例子对之前了解的beego框架的基本内容进行一个简单的应用实现的完整代码地址:https://github.com/pythonsite/go_simple_code/tree/mas ...
原生js写的flybird小游戏
游戏地址:http://zangzhihong.jusukeji.com/flybird/index.html html部分 <!DOCTYPE html> <!-- This ...
Python进阶_面对对象&面对过程
这节主要讲面对对象与面对过程两种编程思想的主要区别. 一. 简单对比面向过程是一种基础的方法,它考虑的是实际的实现步骤,一般情况下,面向过程是自顶向下逐步求精,其最重要的是模块化的思想方法. 面向对 ...
C语言第七次博客作业--一二维数组
一.PTA实验作业题目1:找鞍点 1. 本题PTA提交列表 2. 设计思路定义n,i,j,ii,jj,a[7][7],flag,max 输入n for i=0 to i=n for j=0 to ...
Linux远程连接工具
Linux远程连接可以使用SecureCRT工具完成 SecureCRT下载地址修改虚拟机中的网络适配器---改为桥接模式一,配置:在Linux终端上获取IP地址----ifconfig 二,同时 ...
linux新建用户并赋管理员权限
输入useradd新建一个用户 [root@java-devenv ~]# useradd yaoqi [root@java-devenv ~]# passwd yaoqi passwd 是修改用户密 ...
利用 mount 指令解决 Read-only file system的问题
利用 mount 指令解决 Read-only file system的问题在linux系统中创建一个文件提示: /application/report/shiwei # touch test.ct ...
分享：docker swarm集群搭建
[Y_H]实践原创三台虚拟机:1台centOS , 2台ubuntu. 网上有用docker-machine创建虚拟机做的例子. 这里直接用VMware创建这三台虚拟机,然后用xshell连 ...
关于hbase中的hbase-site.xml 配置详解
该文档是用Hbase默认配置文件生成的,文件源是 hbase-default.xml hbase.rootdir 这个目录是region server的共享目录,用来持久化HBase.URL需要是'完 ...
mongodb 数据备份与恢复
备份语法 mongodump -h dbhost -d dbname -o dbdirectory -h:服务器地址,也可以指定端口号 -d:需要备份的数据库名称 -o:备份的数据存放位置,此目录中 ...

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable的更多相关文章

随机推荐

热门专题