spark 调优（官方文档）

1.序列化

对象在进行网络传输或进行持久化时需要进行序列化，如果采用序列化慢或者消耗大量字节的序列化格式，则会拖慢计算。

spark 提供了两种序列化类库

1）. Java serialization

灵活，但是很慢

2） Kryo serialization

比java 快10倍，紧凑，不支持所有 Serializable类型，使用方法

a.在saprkconf 中设置序列化的类

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer").

b.可选

设置spark.kryo.registrationRequired 为true，则必须显示声明需要序列化的类，否则会报错

sconf.set("spark.kryo.registrationRequired","true")

sconf.registerKryoClasses(Array(

classOf[NullWritable],

classOf[Array[String]])

)

如果序列化的对象较大，可以调整 spark.kryoserializer.buffer （默认6k）。如果不注册需要序列化的类，则序列化时会保存类的全称，比惨耗内存

2.内存优化

Java对象访问速度很快，但与其字段中的“原始”数据相比，可以轻松占用2-5倍的空间。缩小内存的方法

1）尽量使用array[object] 和基本类型，避免使用 hashmap 等标准集合

2）尽量避免使用包含大量小对象和指针的嵌套结构

3）rdd 缓存时尽量使用序列化格式，比如MEMORY_ONLY_SER，

4）gc 调优？

3.资源允许的情况下增加任务的并行度，充分利用集群资源

4..提高reduceByKey,groupByKey 等shuffle 操作的并行度，以降低每个task 处理的数据量，减少oom

5.大的变量进行broadcast

spark 调优（官方文档）的更多相关文章

Spark记录-SparkSql官方文档中文翻译（部分转载）
1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算.Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查 ...
《Spark Python API 官方文档中文版》之 pyspark.sql (一)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
《Spark Python API 官方文档中文版》之 pyspark.sql (二)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
《Spark Python API 官方文档中文版》之 pyspark.sql (四)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
《Spark Python API 官方文档中文版》之 pyspark.sql (三)
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需, ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark Pipeline官方文档
ML Pipelines(译文) 官方文档链接:https://spark.apache.org/docs/latest/ml-pipeline.html 概述在这一部分,我们将要介绍ML Pipe ...
Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
Spark Streaming官方文档学习--上
官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...
【翻译】Spark 调优 (Tuning Spark) 中文版
由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运 ...

随机推荐

JS 对象属性名排序
问题,对象属性名排序,如: var data = { A:[], D:[], B:{} } 调整为=> var data = { A:[], B:[], D:{} } 方法一: for,in,把 ...
用友U9 刷新当前页面代码
this.Action.NavigateAction.Refresh(null, true);//刷新当前页
vue中通过hls.js播放m3u8格式的视频
近期做了一个功能,是接入一个海康的摄像头的监控视频,怎么获取m3u8的视频这里就不在叙述了,只说一下怎么将m3u8格式的视频成功播放一.m3u8和HLS介绍 1.M3U8文件是指UTF-8编码格式的 ...
js获取客户端IP
获取客户端公网IP <script src="http://pv.sohu.com/cityjson?ie=utf-8"></script> <scr ...
如何提高你的移动开发中AS3/AIR性能
Shawn Blais 让我了解到如何在移动平台上对AS3代码进行优化.他的博客(http://esdot.ca/site/category/blog)只有十来篇文章,但都是些很意思的信息,尤其适合我 ...
SQL Server Compact 3.5环境部署<转>
通过使用 Microsoft Visual Studio 开发环境,可以开发使用 SQL Server Compact 3.5 的应用程序.Visual Studio 是开发和部署使用 SQL Ser ...
kubernetes学习Service之headless和statefulSet结合
一.首先说headless Service和普通Service的区别 headless不分配clusterIP headless service可以通过解析service的DNS,返回所有Pod的地址 ...
USB规格及速度
1. 速度对比 2. 硬件特性 USB2.0四线:5V,D-,D+,GND. USB3.0一般十线:5V,D-,D+,GND,SSTX+,SSTX-,SSRX+,SSRX-,P1_Drain,P2_D ...
快速生成mysql上百万条测试数据
方案:编写一个存储过程循环添加数据 1. 创建表index_test DROP TABLE IF EXISTS index_test; CREATE TABLE index_test( id ) PR ...
maven中，dependency 中的 classifier属性
classifier元素用来帮助定义构件输出的一些附属构件.附属构件与主构件对应,比如主构件是 kimi-app-2.0.0.jar 该项目可能还会通过使用一些插件生成如 kimi-app-2.0. ...

spark 调优（官方文档）

spark 调优（官方文档）的更多相关文章

随机推荐

热门专题