RDD(九)——序列化问题

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要考虑的主要问题是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。

传递一个方法

import org.apache.spark.rdd.RDD

class Search(query:String) {

  //过滤出包含字符串的数据

  def isMatch(s: String): Boolean = {

    s.contains(query)

  }

  //过滤出包含字符串的RDD

  def getMatch1 (rdd: RDD[String]): RDD[String] = {

    rdd.filter(isMatch)

  }

  //过滤出包含字符串的RDD

  def getMatche2(rdd: RDD[String]): RDD[String] = {

    rdd.filter(x => x.contains(query))

  }

}

创建Spark主程序

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object SeriTest {

    def main(args: Array[String]): Unit = {

      //1.初始化配置信息及SparkContext

      val sparkConf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

      val sc = new SparkContext(sparkConf)

      //2.创建一个RDD

      val rdd: RDD[String] = sc.parallelize(Array("hadoop", "spark", "hive", "atguigu"))

      //3.创建一个Search对象

      val search = new Search("h")

      //4.运用第一个过滤函数并打印结果

      val match1: RDD[String] = search.getMatch1(rdd)

      match1.collect().foreach(println)

    }

  }

运行程序

报错：java.io.NotSerializableException: Search；

在这个方法中所调用的方法isMatch()是定义在Search这个类中的，实际上调用的是this. isMatch()，this表示Search这个类的对象，程序在运行过程中需要将Search对象序列化以后传递到Executor端。

解决方案：

使类继承scala.Serializable即可。告诉“它们”：Search对象是可以被序列化的

class Search(query:String) extends Serializable {

问题解决，打印：

hadoop

hive

传递一个属性

创建spark主程序

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object SeriTest {

    def main(args: Array[String]): Unit = {

      //1.初始化配置信息及SparkContext

      val sparkConf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[*]")

      val sc = new SparkContext(sparkConf)

      //2.创建一个RDD

      val rdd: RDD[String] = sc.parallelize(Array("hadoop", "spark", "hive", "atguigu"))

      //3.创建一个Search对象

      val search = new Search("h")

      val matcher2: RDD[String] = search.getMatche2(rdd)

      matcher2.collect().foreach(println)

    }

  }

运行程序，也会报同样的错误：java.io.NotSerializableException: Search；

问题说明：

  //过滤出包含字符串的RDD

  def getMatche2(rdd: RDD[String]): RDD[String] = {

    rdd.filter(x => x.contains(query))

  }

在这个方法中所调用的方法query是定义在Search这个类中的字段，实际上调用的是this. query，this表示Search这个类的对象，程序在运行过程中需要将Search对象序列化以后传递到Executor端。

解决方法同上。

补充：创建一个object，在object中定义方法，以对象名引用的方式将方法传递给各个executor，不会出现序列化问题。见博文《JdbcRDD连接MySQL 》

RDD(九)——序列化问题的更多相关文章

JdbcRDD连接MySQL
(1)添加依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> < ...
spark新能优化之序列化的持久化级别
除了对多次使用的RDD进行持久化操作之外,还可以进一步优化其性能.因为很有可能,RDD的数据是持久化到内存,或者磁盘中的.那么,此时,如果内存大小不是特别充足,完全可以使用序列化的持久化级别,比如ME ...
RDD缓存策略
Spark支持将数据集放置在集群的缓存中,以便于数据重用. Spark缓存策略对应的类: class StorageLevel private( private var useDisk_ : Bool ...
在Spark中使用Kryo序列化
spark序列化对于优化<网络性能>极为重要,将RDD以序列化格式来保存减少内存占用. spark.serializer=org.apache.spark.serializer.Jav ...
C#[Serializable]在C#中的作用-NET 中的对象序列化
为什么要使用序列化?最重要的两个原因是:将对象的状态保存在存储媒体中以便可以在以后重新创建出完全相同的副本:按值将对象从一个应用程序域发送至另一个应用程序域.例如,序列化可用于在 ASP.NET 中保 ...
五、RDD持久化
Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中.当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以 ...
Spark RDD持久化、广播变量和累加器
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...
【Spark调优】：RDD持久化策略
[场景] Spark对RDD执行一系列算子操作时,都会重新从头到尾计算一遍.如果中间结果RDD后续需要被被调用多次,可以显式调用 cache()和 persist(),以告知 Spark,临时保存之前 ...
Properties-转换流-打印流-序列化和反序列化-Commons-IO工具类
一.Properties 类(java.util) 概述:Properties 是一个双列集合;Properties 属于map的特殊的孙子类;Properties 类没有泛型,propert ...

随机推荐

2.11 DataBinding 简单使用
DataBindIng 在我理解看来类似于其他语言当中的全局变量,只修改一处就可全部修改添加位置和代码如下: 打开DataBinding 开关: dataBinding { enabled true ...
吴裕雄--天生自然JAVA SPRING框架开发学习笔记：Spring目录结构和基础JAR包介绍
可以通过网址 http://repo.spring.io/simple/libs-release-local/org/springframework/spring/ 下载名称为 springframe ...
[XSS防御]HttpOnly之四两拨千斤
今天看了<白帽子讲web安全>一书,顺便记录一下,HttpOnly的设置 httponly的设置值为 TRUE 时,使得Javascript无法获取到该值,有效地防御了XSS打管理员的 c ...
PAT Advanced 1076 Forwards on Weibo (30) [图的遍历，BFS，DFS]
题目 Weibo is known as the Chinese version of Twitter. One user on Weibo may have many followers, and ...
ArchLinux安装Gnome桌面
给Arch安装Gnome桌面美化及常用软件配置一.创建普通用户 1.安装zsh 个人比较喜欢的一个shell,你们可以和我不同 # pacman -S zsh 2.创建用户 kain是我创建用户的名 ...
MySQL--从库启动复制报错1236
链接:http://blog.csdn.net/yumushui/article/details/42742461 今天在搭建一个MySQL master-slave集群时,执行了change mas ...
Java Web应用的加载过程
在介绍Spring IoC和MVC的加载前,用这篇小文章简单地记录下,最简单的web应用的加载过程. 一.从最简单的web应用出发使用Eclipse直接创建一个Dynamic Web Project ...
Q6：ZigZag Conversion
6. ZigZag Conversion 官方的链接:6. ZigZag Conversion Description : The string "PAYPALISHIRING" ...
centos通过yum安装php
1.添加php的yum软件仓库 sudo rpm -Uvh https://mirror.webtatic.com/yum/el6/latest.rpm 2.安装php相关软件,执行过程中全部选择ye ...
纯CSS导航栏下划线跟随效果
参考文章 <ul> <li>111</li> <li>2222</li> <li>3333333</li> < ...

RDD(九)——序列化问题

传递一个属性

RDD(九)——序列化问题的更多相关文章

随机推荐

热门专题