RDD的Cache、Persist、Checkpoint的区别和StorageLevel存储级别划分

为了增强容错性和高可用，避免上游RDD被重复计算的大量时间开销，Spark RDD设计了包含多种存储级别的缓存和持久化机制，主要有三个概念：Cache、Persist、Checkout。

1、存储级别介绍（StorageLevel）

存储级别以一个枚举类StorageLevel定义，分为以下12种：

StorageLevel枚举类存储级别
存储级别	使用空间	CPU时间	是否在内存中	是否在磁盘上	备注
NONE	否	否	否	否	不使用任何存储
DISK_ONLY	低	高	否	是	只存在磁盘上
DISK_ONLY_2	低	高	否	是	数据存2份
MEMORY_ONLY	高	低	是	否	只存在内存中
MEMORY_ONLY_2	高	低	是	否	数据存2份
MEMORY_ONLY_SER	低	高	是	否	数据序列化存储
MEMORY_ONLY_SER_2	低	高	是	否	数据序列化后存2份
MEMORY_AND_DISK	高	中等	部分	部分	若数据在内存中放不下，就溢出写到磁盘上
MEMORY_AND_DISK_2	高	中等	部分	部分	数据存2份
MEMORY_AND_DISK_SER	低	高	部分	部分	数据序列化后，先存内存，内存放不下就溢写到磁盘
MEMORY_AND_DISK_SER_2	低	高	部分	部分	数据存2份
OFF_HEAP					使用JVM堆外内存，利用java unsafe API实现的内存管理优点：在内存有限时，可以减少频繁GC及不必要的内存消耗（减少内存的使用，），提升程序性能。缺点：没有数据备份，也不能像alluxio那样保证数据高可用，丢失数据则需要重新计算。

2、Cache 和 Persist 的区别

  /**

   * Persist this RDD with the default storage level (`MEMORY_ONLY`).

   */

  def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

  /**

   * Persist this RDD with the default storage level (`MEMORY_ONLY`).

   */

  def cache(): this.type = persist()

上面是RDD的cache和persist的源代码，可以看出，cache方法本质上调用了空参数的persist方法，而空参数的persist方法又调用了“MEMORY_ONLY”参数的persist方法，也就是说，cache是MEMORY_ONLY级别的缓存存储，是一个特殊的persist。

3、Persist

persist方法提供了丰富的存储级别，可以满足多样性的缓存需求

  /**

   * Mark this RDD for persisting using the specified level.

   *

   * @param newLevel the target storage level

   * @param allowOverride whether to override any existing level with the new one

   */

  private def persist(newLevel: StorageLevel, allowOverride: Boolean): this.type = {

    // TODO: Handle changes of StorageLevel

    if (storageLevel != StorageLevel.NONE && newLevel != storageLevel && !allowOverride) {

      throw new UnsupportedOperationException(

        "Cannot change storage level of an RDD after it was already assigned a level")

    }

    // If this is the first time this RDD is marked for persisting, register it

    // with the SparkContext for cleanups and accounting. Do this only once.

    if (storageLevel == StorageLevel.NONE) {

      sc.cleaner.foreach(_.registerRDDForCleanup(this))

      sc.persistRDD(this)

    }

    storageLevel = newLevel

    this

  }

  /**

   * Set this RDD's storage level to persist its values across operations after the first time

   * it is computed. This can only be used to assign a new storage level if the RDD does not

   * have a storage level set yet. Local checkpointing is an exception.

   */

  def persist(newLevel: StorageLevel): this.type = {

    if (isLocallyCheckpointed) {

      // This means the user previously called localCheckpoint(), which should have already

      // marked this RDD for persisting. Here we should override the old storage level with

      // one that is explicitly requested by the user (after adapting it to use disk).

      persist(LocalRDDCheckpointData.transformStorageLevel(newLevel), allowOverride = true)

    } else {

      persist(newLevel, allowOverride = false)

    }

  }

  /**

   * Persist this RDD with the default storage level (`MEMORY_ONLY`).

   */

  def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

persist方法包含三个实现，但可以看出，空参数的persist其实调用了单参数的persist方法，单参数的persist方法又调用了双参数的persist方法，在双参数persist中排除了一种情况，之后按照最新存储级别执行存储，存储流程的细节以后再分析。

3、Checkpoint和Persist的区别

	Persist	Checkpoint
位置	persist和cache只能保存在本地的磁盘和内存中（或者堆外内存）	数据必须保存在HDFS分布式文件系统中
生命周期	cache和persist的RDD会在程序结束后被清除或者可以手动调用unpersist清除	由于在HDFS上，程序结束结束后依然存在，不会被删除
RDD血统和依赖链	persist和cache会保留RDD的血统和依赖关系，原因是这两种持久化方式是不可靠的。如果出现Executor宕机等故障，那么持久化的数据就会丢失，那么修复后可以回溯血统重新计算RDD	HDFS天然支持高可靠存储，即checkpoint的持久化就是绝对可靠的，所以checkpoint会折断依赖链，不需要回溯
额外Job	persist和cache有RDD血统链，不需要开启额外Job执行操作	checkpoint会通过sc.runJob()开启一个额外Job来执行RDD写入HDFS的操作

综上，可以得出，cache是一个特殊的persist，persist是保留RDD血统的不可靠持久化方式，checkpoint是安全可靠、不保留RDD血统的持久化方式；如果不考虑OOM等异常可能性大小，且单论性能的话，Cache > Persist > Checkpoint

RDD的Cache、Persist、Checkpoint的区别和StorageLevel存储级别划分的更多相关文章

RDD的cache 与 checkpoint 的区别
问题:cache 与 checkpoint 的区别? 关于这个问题,Tathagata Das 有一段回答: There is a significant difference between cac ...
RDD中的cache() persist() checkpoint()
cache只有一个默认的缓存级别MEMORY_ONLY ,而persist可以根据StorageLevel设置其它的缓存级别. cache以及persist都不是action. 被重复使用的(但是)不 ...
Spark cache、checkpoint机制笔记
Spark学习笔记总结 03. Spark cache和checkpoint机制 1. RDD cache缓存当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出 ...
RDD中cache和persist的区别
通过观察RDD.scala源代码即可知道cache和persist的区别: def persist(newLevel: StorageLevel): this.type = { if (storage ...
Checkpoint & cache & persist
checkpoint checkpoint(检查点)是Spark为了避免长链路,大计算量的Rdd不可用时,需要长时间恢复而引入的.主要就是将通过大量计算而获得的这类Rdd的数据直接持久化到外部可靠的存 ...
Spark(七)【RDD的持久化Cache和CheckPoint】
RDD的持久化 1. RDD Cache缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存,默认情况下会把数据以缓存在JVM的堆内存中.但是并不是这两个方法被调用时立即缓存,而是 ...
HttpContext.Cache和Application的区别
原文:HttpContext.Cache和Application的区别 (转载) 应用程序级的Cache和Application用户会话级的Session application的缺点是在读取时最 ...
cache 和 buffer的区别
cache 和 buffer的区别: Cache:高速缓存,是位于CPU与主内存间的一种容量较小但速度很高的存储器.由于CPU的速度远高于主内存, CPU直接从内存中存取数据要等待一定时间周期,Cac ...
Linux Free命令每个数字的含义和 cache 、buffer的区别
Linux Free命令每个数字的含义和 cache .buffer的区别我们按照图中来一细细研读(数字编号和图对应)1,total:物理内存实际总量2,used:这块千万注意,这里可不是实际已经 ...

随机推荐

PHP 导出网页表格如何对标签中的内容设置属性
当在使用php导出excel表格的时候,有时需要将某一列专门设置成文本属性方法: 在需要设置属性的的<td>标签中添加 style='vnd.ms-excel.numberforma ...
redis BLPOP
一.需求 redis中保存了需要download的image url,存储格式为列表. 我需要从列表中获取数据,将图片下载保存到本地. 列表中的数据是一直增加的. 二.实现使用redis BLPOP ...
tfgan折腾笔记（二）：核心函数详述——gan_model族
定义model的函数有: 1.gan_model 函数原型: def gan_model( # Lambdas defining models. generator_fn, discriminator ...
Android系统研究资料收集---站在前人的肩膀上
Android系统研究资料收集---站在前人的肩膀上针对Android系统研究任务,收集高价值资料在本页更新 AuthBlog:秋城https://www.cnblogs.com/houser032 ...
ORB-SLAM2 运行 —— ROS + Android 手机摄像头
转载请注明出处,谢谢原创作者:Mingrui 原创链接:https://www.cnblogs.com/MingruiYu/p/12404730.html 本文要点: ROS 配置安装解决 sud ...
Java核心技术卷1 第10版笔记
3.3 数据类型 Java是一种强类型语言.必须为每一个变量声明一种类型.在java中,一共有8终基本类型. 3.3.1 整形类型存储需求取值范围 int 4字节 -2 147 483 648 ...
node跨域方法
第一种:jsonp 参看用nodejs实现json和jsonp服务第二种:res.wirteHeadnode部分 var http = require('http') var url = requi ...
Object-Oriented Programming Summary Ⅰ
Part 0: 前言令人闻风丧胆的OO还是来了.并没有像名字的外表一样可爱,简直就是恶魔. 疯狂压榨OS的时间,周末无法休息,互测狼人机制虽然网上骂声很多,就算改进到9012年还是有很多不足的地方 ...
Service Mesh - gRPC 本地联调远程服务
Description Service Mesh 架构下,服务间调用会通过服务名(Service Name)互相调用,比如在 Kubernetes .Docker Swarm 集群中,服务 IP 均由 ...
Swfit 属性与汇编分析inout本质
今天将讲述Swift属性以及剖析inout的本质, 如有兴趣可点击关注,以后会定期更新更有料的博客!!! 一.属性 Swift中跟实例相关的属性可以分为2大类存储属性(Stored property ...

RDD的Cache、Persist、Checkpoint的区别和StorageLevel存储级别划分

RDD的Cache、Persist、Checkpoint的区别和StorageLevel存储级别划分的更多相关文章

随机推荐

热门专题