Spark设置Kryo序列化缓冲区大小

背景

今天在开发SparkRDD的过程中出现Buffer Overflow错误，查看具体Yarn日志后发现是因为Kryo序列化缓冲区溢出了，日志建议调大spark.kryoserializer.buffer.max的value，搜索了一下设置keyo序列化缓冲区的方法，特此整理记录下来。

20/01/08 17:12:55 WARN scheduler.TaskSetManager: Lost task 1.0 in stage 1.0 (TID 4, s015.test.com, executor 1): org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, required: 10300408. To avoid this, increase spark.kryoserializer.buffer.max value.

	at org.apache.spark.serializer.KryoSerializerInstance.serialize(KryoSerializer.scala:315)

	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:367)

	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)

	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)

	at java.lang.Thread.run(Thread.java:748)

方法一：通过conf参数设置spark.kryoserializer.buffer.max

spark-submit在提交spark作业时可以带很多参数，其中有一个参数--conf可以设置spark.kryoserializer.buffer.max的大小，具体如下。

./bin/spark-submit \

  --class <main-class> \

  --master <master-url> \

  --deploy-mode <deploy-mode> \

  --conf spark.kryoserializer.buffer.max=512m \

  ... # other options

  <application-jar> \

  [application-arguments]

上面的--conf spark.kryoserializer.buffer.max=512m即代表把Kryo序列化缓冲区的buffer大小设置为512mb。

方法二：通过程序中拿到sparkConf对象设置spark.kryoserializer.buffer.max

1.设置Kryo为序列化类

//设置Kryo为序列化类（默认为Java序列类）

sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");

2.设置spark.kryoserializer.buffer.max的值

//两种设置方法

sparkConf.set("spark.kryoserializer.buffer.max", "128m");

sparkConf.set("spark.kryoserializer.buffer.max.mb", "128");

3.检查是否成功设置Kryo参数

//打印日志，检查是否成功设置

System.out.println( sparkConf.get("spark.kryoserializer.buffer.max") );

参考文献

[1]【大数据进击】如何设置spark.kryoserializer.buffer.max value

[2]Spark official docs: Submitting Applications

Spark设置Kryo序列化缓冲区大小的更多相关文章

Spark:将RDD[List[String,List[Person]]]中的List[Person]通过spark api保存为hdfs文件时一直出现not serializable task，没办法找到"spark自定义Kryo序列化输入输出API"
声明:本文转自<在Spark中自定义Kryo序列化输入输出API> 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo seriali ...
SetConsoleScreenBufferSize 函数--设置控制台屏幕缓冲区大小
SetConsoleScreenBufferSize函数来源:https://msdn.microsoft.com/en-us/library/windows/desktop/ms686044(v= ...
【Spark调优】Kryo序列化
[Java序列化与反序列化] Java序列化是指把Java对象转换为字节序列的过程:而Java反序列化是指把字节序列恢复为Java对象的过程.序列化使用场景:1.数据的持久化,通过序列化可以把数据永久 ...
socket tcp缓冲区大小的默认值、最大值
Author:阿冬哥 Created:2013-4-17 Blog:http://blog.csdn.net/c359719435/ Copyright 2013 阿冬哥 http://blog.cs ...
【Linux】tcp缓冲区大小的默认值、最大值
Author:阿冬哥 Created:2013-4-17 Blog:http://blog.csdn.net/c359719435/ Copyright 2013 阿冬哥 http://blog.cs ...
在Spark中使用Kryo序列化
spark序列化对于优化<网络性能>极为重要,将RDD以序列化格式来保存减少内存占用. spark.serializer=org.apache.spark.serializer.Jav ...
在Spark中自定义Kryo序列化输入输出API（转）
原文链接:在Spark中自定义Kryo序列化输入输出API 在Spark中内置支持两种系列化格式:(1).Java serialization:(2).Kryo serialization.在默认情况 ...
Spark优化之三：Kryo序列化
Spark默认采用Java的序列化器,这里建议采用Kryo序列化提高性能.实测性能最高甚至提高一倍. Spark之所以不默认使用Kryo序列化,可能的原因是需要对类进行注册. Java程序中注册很简单 ...
VS2015编译FFMPEG，修改FFmpeg缓冲区大小解决实时流解码丢包问题，FFmpeg错误rtsp流地址卡死的问题，设置超时
之前尝试过很多网上利用Windows编译FFmpeg的文章,都没有办法编译X64位的FFmpeg,有些教程中有专门提到编译64位的FFmpeg需要下载mingw-w64-install,但是编译的过程 ...

随机推荐

oracle多个平等的索引
当SQL语句的执行路径可以使用分布在多个表上的多个索引时, ORACLE会同时使用多个索引并在运行时对它们的记录进行合并, 检索出仅对全部索引有效的记录. 在ORACLE选择执行路径时,唯一性索引的等 ...
windows下检出项目和提交项目
1.git status:查看工作区的状态 2.git add 文件名:建立跟踪 3.git commit:提交变更 4.git push:发布本地操作 5.解决 The requested UR ...
Codeforces Round #170 (Div. 1 + Div. 2)
A. Circle Line 考虑环上的最短距离. B. New Problem \(n\) 个串建后缀自动机. 找的时候bfs一下即可. C. Learning Languages 并查集维护可以沟 ...
Python--day24--单继承关键字super
super(). 调用父类方法:(super不仅可以在一个类的内部使用,还可以在一个类的外部使用)
Python--day24--继承
A_son.__bases__查看继承的父类是哪些 A. object是所有类的祖宗,所有的类都默认继承了object类. python中可以多继承继承与抽象,先抽象再继承: example:
Vue之webpack的entry和output
一.文件结构二.index.html <!DOCTYPE html> <html lang="en"> <head> <meta cha ...
ThinkPHP 模版中的内置标签
内置标签就是模版引擎提供的一组可以完成控制.循环和判断功能的类似HTML语法的标签. 一.判断比较: 1.if标签进行条件判断 //if语句的完整格式 <if condition=&qu ...
使用Python内置的smtplib包和email包来实现邮件的构造和发送。
此文章github地址:https://github.com/GhostCNZ/Python_sendEmail Python_sendEmail 使用Python内置的smtplib包和email包 ...
JMETER+JENKINS接口测试持续集成
FIDDER+ANT+JENKINS+JMETER+SVN+tomcat接口测试集成操作流程: 1.测试人员通过FIDDER过滤抓取接口调用信息,导出成jmx文件.(jmeter支持命令行方式调用j ...
lumen简单使用exel组件
1.首先打开命令行,进入到lumen项目的根目录中,然后用composer下载excel组件 composer require maatwebsite/excel ~2.1.0 2.安装成功后,在bo ...