Tuning Spark

https://spark.apache.org/docs/1.2.1/tuning.html

Data Serialization

数据序列化，对于任意分布式系统都是性能的关键点

Spark默认使用Java serialization，这个比较低效

推荐使用，Kryo serialization，会比Java序列化，更快更小， Spark使用Twitter chill library（Kryo的scala扩展）

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

conf.set("spark.kryoserializer.buffer.mb“, 2), 需要大于最大的需要序列化的对象size

之所以，spark不默认使用Kryo，因为Kryo需要显式的注册program中使用到的class，参考

val conf = new SparkConf().setMaster(...).setAppName(...)

conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))

val sc = new SparkContext(conf)

只所以要做注册是因为，在把对象序列化成byte[]时，要记录下classname，classname带namespace一般很长的，所以每个里面加上这个classname比较费空间
在kryo里面注册过后，会用一个int来替代classname
当然不注册kryo也是可以用的，只是会多占空间

Memory Tuning

Tuning之前需要知道当前dataset的内存消耗是多少，
简单的方法是，以该dataset创建rdd，然后cache
这样从SparkContext的日志里面可以看到每个partition的大小，加一下，就可以得到整个数据集的大小

INFO BlockManagerMasterActor: Added rdd_0_1 in memory on mbk.local:50311 (size: 717.5 KB, free: 332.3 MB)

This means that partition 1 of RDD 0 consumed 717.5 KB.

然后可以从几个方面去进行优化，

Tuning Data Structures

Java对象虽然便于访问，但是和raw data比，java对象的size要大2～5倍
Each distinct Java object has an “object header”, which is about 16 bytes
Java Strings have about 40 bytes of overhead over the raw string data, and store each character as two bytes due to String’s internal usage of UTF-16 encoding

其他的比如HashMap或LinkedList，除了header，还需要8 bytes pointer来指向下个对象

总之，就是对于内存敏感的应用，直接使用Java对象是非常不经济的

可以从以下几点去优化，
a, 优先使用arrays of objects, and primitive types，而非java或scala的标准collection class
   或者使用fastutil library，这个库提供了用primitive types实现的collection class

b, 避免含有大量小对象或pointer的嵌套数据结构
c, Consider using numeric IDs or enumeration objects instead of strings for keys
d, If you have less than 32 GB of RAM, set the JVM flag -XX:+UseCompressedOops to make pointers be four bytes instead of eight. You can add these options in spark-env.sh.

Serialized RDD Storage

使用MEMORY_ONLY_SER，在memory中cache序列化后的数据，降低内存使用，当然响应的访问速度会降低，由于需要反序列化

Garbage Collection Tuning

首先需要打开gc日志，
adding -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps to the Java options

Cache Size Tuning

默认Spark使用60% 的executor memory(spark.executor.memory)来cache RDDs.
也就是说只有40%的memory用于task执行，如果发现频繁gc或是oom，可以调低用于cache的比例，
conf.set("spark.storage.memoryFraction", "0.5")， 这样设成50%

Advanced GC Tuning

Spark做gc tuning的目标是，避免在task执行过程中发生full gc， 即需要让Young区足够容纳short-lived objects
a, 如果发生多次full gc或是OldGen已经接近full，说明内存不够，可以降低cache比例
b, 如果很多minor gc，但没有major gc，说明young区过小， 我们可以根据task dataset需要消耗内存来预估eden区，young区大小= eden区 × （4/3），因为要加上survivor区
c, 如果从hdfs读取数据，可以根据hdfs block大小来预估eden区大小，比如，如果解压比例3倍，4个tasks并行，block大小64M，那么eden区大小 = 3×4×64M

其他的一些考虑，

调整并发的level，通过增加并发来降低reduce task的内存消耗

用broadcast functionality来处理大的变量， data locality

Tuning Spark的更多相关文章

【翻译】Spark 调优 (Tuning Spark) 中文版
由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运 ...
spark第十八篇：Tuning Spark 调优
由于大多数Spark应用都是在内存中计算的,所以,Spark程序的瓶颈可能是集群中的任何资源,比如CPU,网络带宽或者内存等.本指南主要涵盖两个主题: 1.数据序列化.这对于良好的网络性能至关重要,还 ...
Spark的性能调优杂谈
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的. 基本概念和原则 <1> 每一台host上面可以并行N个worker,每一个worke ...
Apache Spark 内存管理详解（转载）
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色.理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优.本文旨在梳理出 ...
Spark 调优（转）
Spark 调优返回原文英文原文:Tuning Spark Because of the in-memory nature of most Spark computations, Spark pro ...
Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的. Data Serialization,默认使用的是Java Serialization,这个程序员 ...
spark RDD官网RDD编程指南
http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上, ...
一分钟了解spark的调优
Tuning Spark 数据序列化内存调优内存管理概述确定内存消耗调整数据结构序列化 RDD 存储垃圾收集调整其他注意事项并行度水平减少任务的内存使用广播大的变量数据本地化概 ...
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管.本文,Michael详细的演示了如 ...

随机推荐

PHP 文件上传类
FileUpload.; $]; $_newname = date(,). : To ...
最新IP地址数据库
2016年12月1日最新发行版 265051条数据基于:国内基于省市区以及运营商国外基于国家版本:全球旗舰版国内精华版国外拓展版英文版掩码版字段:大洲国家省份城市县区运营 ...
SqlServer 函数大全
sql server使用convert来取得datetime日期数据 sql server使用convert来取得datetime日期数据,以下实例包含各种日期格式的转换语句及查询结果: Selec ...
使用sqljdbc连接mssql数据库，maven生成jar运行后报"Exception in thread "main" java.lang.SecurityException"错误
错误信息如下: Exception in thread "main" java.lang.SecurityException: Invalid signature file dig ...
python 把函数作为参数 ---高阶函数
把函数作为参数在2.1小节中,我们讲了高阶函数的概念,并编写了一个简单的高阶函数: def add(x, y, f): return f(x) + f(y) 如果传入abs作为参数f的值: add( ...
Seismic Unix的一些历史
本文是我从官网上拷贝过来的,上国外网越来越慢了……(离题了). At the Society of Exploration Geophysicists (SEG) Annual Meeting in ...
OUYA设备的购买和安装
OUYA设备的购买和安装在为OUYA这款游戏终端做具体的开发之前,建议读者先上手感受一下这款设备的游戏体验.本节所涉及的内容包括,OUYA设备的购买.安装.设置,以及最终上手开始游戏这一系列的过程本 ...
思维 UVALive 3708 Graveyard
题目传送门 /* 题意:本来有n个雕塑,等间距的分布在圆周上,现在多了m个雕塑,问一共要移动多少距离: 思维题:认为一个雕塑不动,视为坐标0,其他点向最近的点移动,四舍五入判断,比例最后乘会10000 ...
ural 1247. Check a Sequence
1247. Check a Sequence Time limit: 0.5 secondMemory limit: 64 MB There is a sequence of integer numb ...
模拟退火算法-[HDU1109]
模拟退火算法的原理模拟退火算法来源于固体退火原理,将固体加温至充分高,再让其徐徐冷却,加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达到平衡态,最后在常温时达到 ...