RDD缓存策略

Spark支持将数据集放置在集群的缓存中，以便于数据重用。

Spark缓存策略对应的类：

class StorageLevel private(
　　private var useDisk_ : Boolean,
　　private var useMemory_ : Boolean,
　　private var useOffHeap_ : Boolean,
　　private var deserialized_ : Boolean,
　　private var replication_ : Int = 1)
}

object StorageLevel {
　　val NONE = new StorageLevel(false, false, false, false)
　　val DISK_ONLY = new StorageLevel(true, false, false, false)
　　val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
　　val MEMORY_ONLY = new StorageLevel(false, true, false, true)
　　val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
　　val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
　　val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
　　val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
　　val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
　　val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
　　val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
　　val OFF_HEAP = new StorageLevel(false, false, true, false)
}

StorageLevel关键属性
useDisk_	是否使用磁盘
useMemory_	是否使用内存
deserialized_	是否进行反序列化（即原生方式，不序列化）
replication_	备份数目

序列化后的对象存放在内存中，占用的内存少，但是用时需要反序列化，会消耗CPU；

个人推荐：如果内存使用紧张但是CPU够用时建议考虑使用序列化后缓存；或者是选择性能更好的序列化工具。

可选用的存储级别有如下：

存储级别	描述
MEMORY_ONLY	将RDD 作为反序列化的的对象存储JVM 中。如果RDD不能被内存装下，一些分区将不会被缓存，并且在需要的时候被重新计算。这是是默认的级别
MEMORY_AND_DISK	将RDD 作为反序列化的的对象存储在JVM 中。如果RDD不能被与内存装下，超出的分区将被保存在硬盘上，并且在需要时被读取
MEMORY_ONLY_SER	将RDD 作为序列化的的对象进行存储（每一分区占用一个字节数组）。通常来说，这比将对象反序列化的空间利用率更高，尤其当使用fast serializer,但在读取时会比较占用CPU
MEMORY_AND_DISK_SER	与MEMORY_ONLY_SER 相似，但是把超出内存的分区将存储在硬盘上而不是在每次需要的时候重新计算
DISK_ONLY	只将RDD 分区存储在硬盘上
DISK_ONLY_2等带2的	与上述的存储级别一样，但是将每一个分区都复制到两个集群结点上

存储级别选择原则：

spark的不同存储级别，旨在满足内存使用和CPU效率权衡上的不同需求。建议通过以下步骤来进行选择：

1）如果RDDs可以很好的与默认的存储级别MEMORY_ONLY契合，就不需要做任何调整，这已经是CPU使用效率最高的选项，它使得RDDs的操作尽可能的快；

2）如果不行，试着使用MEMORY_ONLY_SER，并且选择一个快速序列号的库使得对象在比较高的空间使用率下，依然可以较快的被访问；

3）尽可能的不要存储在硬盘中，除非计算数据集的函数计算量特别大，或者它们过滤了大量的数据，否则重新计算一个分区的速度和从与硬盘中读取基本差不多快；

注意：

1）spark默认存储策略为MEMORY_ONLY：只缓存到内存并且以原生方式存（反序列化）一个副本；

2）MEMORY_AND_DISK存储级别在内存够用时直接保存到内存中，只有当内存不足时，才会存储到磁盘中。

详细信息参见官方文档：http://spark.apache.org/docs/latest/programming-guide.html

RDD缓存策略的更多相关文章

RDD概念、特性、缓存策略与容错
一.RDD概念与特性 1. RDD的概念 RDD(Resilient Distributed Dataset),是指弹性分布式数据集.数据集:Spark中的编程是基于RDD的,将原始数据加载到内存变成 ...
RDD缓存学习
首先实现rdd缓存准备了500M的数据 10份,每份 100万条,存在hdfs 中通过sc.textFile方法读取 val rdd1 = sc.textFile("hdfs://mini ...
【腾讯Bugly干货分享】彻底弄懂 Http 缓存机制 - 基于缓存策略三要素分解法
本文来自于腾讯Bugly公众号(weixinBugly),未经作者同意,请勿转载,原文地址:https://mp.weixin.qq.com/s/qOMO0LIdA47j3RjhbCWUEQ 作者:李 ...
【转】理解Java Integer的缓存策略
本文将介绍 Java 中 Integer 缓存的相关知识.这是 Java 5 中引入的一个有助于节省内存.提高性能的特性.首先看一个使用 Integer 的示例代码,展示了 Integer 的缓存行为 ...
Redis的缓存策略和主键失效机制
作为缓存系统都要定期清理无效数据,就需要一个主键失效和淘汰策略. >>EXPIRE主键失效机制在Redis当中,有生存期的key被称为volatile,在创建缓存时,要为给定的key设置 ...
Web开发基本准则-55实录-缓存策略
续上篇<Web开发基本准则-55实录-Web访问安全>. Web开发基本准则-55实录-缓存策略郑昀创建于2013年2月郑昀最后更新于2013年10月26日提纲: Web访问安全 ...
腾讯QQ你的缓存策略应该改下了
缓存策略基本原则大家都怎么考虑的? 缓存好友数量这个也是醉了,这个数字好像变化频率有点低吧,ok,就算你企鹅用户量大,需要缓存,那肉肉的问一句你这更新策略也不能只管网上涨的,不管往下降的吧?难不成你是 ...
Http协议：彻底弄懂 Http 缓存机制 - 基于缓存策略三要素分解法
转载:http://mp.weixin.qq.com/s/uWPls0qrqJKHkHfNLmaenQ 导语 Http 缓存机制作为 web 性能优化的重要手段,对从事 Web 开发的小伙伴们来说是必 ...
理解Java Integer的缓存策略
转载自http://www.importnew.com/18884.html 本文将介绍 Java 中 Integer 缓存的相关知识.这是 Java 5 中引入的一个有助于节省内存.提高性能的特性. ...

随机推荐

Neutron GRE模式要注意的问题
GRE模式下,如果MTU和Offloading配置不当,会严重降低网络性能(https://ask.openstack.org/en/question/6140/quantum-neutron-gre ...
剑指offer系列44---只出现一次的数字
[题目]一个整型数组里除了两个数字之外,其他的数字都出现了两次.请写程序找出这两个只出现一次的数字. * [思路]异或性质:数异或自己即为0: * 一个数组中,从头到尾异或的结果为不重复数字异或结果. ...
WINDOWS黑客基础(4):查找进程运行的基址
从WINDOWS VISITA开始以后,windows已经开始支持随机基址的关系,也就是说以前我们的进程基址都是从0x40000开始的,如果一个变量在我们第一次运行的时候地址为0x50000,那么以后 ...
mac 下使用wireshark监听网络上的数据
分三个步骤: 1.wireshark安装 wireshark运行需要mac上安装X11,mac 10.8的系统上默认是没有X11的.先去http://xquartz.macosfo ...
黄聪：HtmlAgilityPack，C#实用的HTML解析类 ---- HtmlNode类
HtmlAgilityPack中的HtmlNode类与XmlNode类差不多,提供的功能也大同小异.下面来看看该类提供功能. 一.静态属性 public static Dictionary<st ...
Javascript金额转化
//"123,456.78"----> 123456.78(float格式) function rmoney(s) { return parseFloat(s.replace ...
system函数
system两层含义: 1.正确退出后.还需要再判断,操作成功或者操作失败. 2.错误退出. #include <stdio.h> #include <stdlib.h> #i ...
C#托管代码与C++非托管代码互相调用
http://www.cnblogs.com/Jianchidaodi/archive/2009/03/11/1407270.html#1473515 http://www.cnblogs.com/J ...
ZOJ 3606 Lazy Salesgirl 浙江省第九届省赛
Lazy Salesgirl Time Limit: 5 Seconds Memory Limit: 65536 KB Kochiya Sanae is a lazy girl who ma ...
ylbtech-dbs:ylbtech-PurpleBill(票据管理系统)
ylbtech-dbs:ylbtech-PurpleBill(票据管理系统) -- =============================================-- DatabaseNa ...

RDD缓存策略

RDD缓存策略的更多相关文章

随机推荐

热门专题