RDD通过persist方法或cache方法可以将前面的计算结果缓存,默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。 但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD的计算结果将会被缓存在计算节点的内存中,并供后面重用。

示例如下:

  1. def main(args: Array[String]): Unit = {
  2. val sc: SparkContext = new SparkContext(new SparkConf().
  3. setMaster("local[*]").setAppName("spark"))
  4.  
  5. val raw: RDD[String] = sc.makeRDD(Array("hello"))
  6. val current: RDD[String] = raw.map(_.toString + System.currentTimeMillis())
  7. //current.persist()
  8. current.collect().foreach(println)
  9. current.collect().foreach(println)
  10. current.collect().foreach(println)
  11. }

如果不加persist方法,执行结果如下:

hello1582190762213

hello1582190762463

hello1582190762526

加了persist方法之后,执行结果变为:

hello1582190869308

hello1582190869308

hello1582190869308

可见:current这个rdd的计算结果被缓存起来了 ,下游的rdd直接从缓存拿数据并进行运算。rdd及其rdd上游的计算过程被省略了,从而加快了计算过程。

存储级别:

  1. object StorageLevel {
  2. val NONE = new StorageLevel(false, false, false, false)
  3. val DISK_ONLY = new StorageLevel(true, false, false, false)
  4. val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
  5. val MEMORY_ONLY = new StorageLevel(false, true, false, true)
  6. val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
  7. val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
  8. val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
  9. val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
  10. val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
  11. val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
  12. val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
  13. val OFF_HEAP = new StorageLevel(true, true, true, false, 1)
  1. class StorageLevel private(
    private var _useDisk: Boolean,
    private var _useMemory: Boolean,
    private var _useOffHeap: Boolean,
    private var _deserialized: Boolean,
    private var _replication: Int = 1)

堆外内存:区别于JVM内存。这一块内存不受JVM的GC回收机制的影响,而是直接向操作系统申请并自主管理的一块内存空间。为什么需要这块内存:JVM中的内存由于受到GC的影响,如果没有用完可能迟迟得不到释放,这时候如果再加入数据,就可能导致OOM问题。而如果由自己来管理内存,可以更及时地释放内存。

默认存储级别为MEMORY_ONLY:

检查点

如图所示:

依赖链过长,会导致有大量的血统信息要被记录;

而且在进行数据恢复的时候,要重新从头开始计算,比较耗时;

因此引入了检查点:

血统信息会从检查点开始记录;

重新计算时,把检查点的数据作为元数据开始计算;

相当于是检查点之前的RDD链条被掐断,检查点作为新的RDD链条头。

示例代码如下:

  1. def main(args: Array[String]): Unit = {
  2. val conf: SparkConf = new SparkConf()
  3. .setAppName("wordcount").setMaster("local[*]")
  4.  
  5. val sc: SparkContext = new SparkContext(conf)
  6. sc.setCheckpointDir("cp")
  7.  
  8. val lines: RDD[String] = sc.parallelize(Array(("hello,spark"),("hello,scala"),("hello,world")))
  9.  
  10. val words: RDD[String] = lines.flatMap(_.split(" "))
  11.  
  12. val wordToOne: RDD[(String, Int)] = words.map((_,1))
  13. //wordToOne之前的血缘关系,会被检查点替代。
  14. //wordToOne.checkpoint()
  15.  
  16. val wordToSum: RDD[(String, Int)] = wordToOne.reduceByKey(_+_)
  17.  
  18. wordToSum.collect()
  19.  
  20. println(wordToSum.toDebugString)
  21.  
  22. }

不加checkpoint的打印结果:

(8) ShuffledRDD[3] at reduceByKey at checkPoint.scala:21 []
 +-(8) MapPartitionsRDD[2] at map at checkPoint.scala:17 []
    |  MapPartitionsRDD[1] at flatMap at checkPoint.scala:15 []
    |  ParallelCollectionRDD[0] at parallelize at checkPoint.scala:13 []

从头开始记录;

加了checkpoint之后的打印结果:

(8) ShuffledRDD[3] at reduceByKey at checkPoint.scala:21 []
 +-(8) MapPartitionsRDD[2] at map at checkPoint.scala:17 []
    |  ReliableCheckpointRDD[4] at collect at checkPoint.scala:23 []

检查点所在RDD之前的RDD的血缘信息被检查点信息所替代。

接下来考察检查点之前的RDD会不会被重复计算:

  1. def main(args: Array[String]): Unit = {
  2. val conf: SparkConf = new SparkConf()
  3. .setAppName("wordcount").setMaster("local[*]")
  4.  
  5. val sc: SparkContext = new SparkContext(conf)
  6. sc.setCheckpointDir("cp")
  7.  
  8. val lines: RDD[String] = sc.parallelize(Array(System.currentTimeMillis().toString))
  9.  
  10. val words: RDD[String] = lines.flatMap(_.split(" "))
  11.  
  12. val wordToOne: RDD[(String, Int)] = words.map((_,1))
  13. //wordToOne之前的血缘关系,会被检查点替代。
  14. wordToOne.checkpoint()
  15.  
  16. val wordToSum: RDD[(String, Int)] = wordToOne.reduceByKey(_+_)
  17.  
  18. wordToSum.collect().foreach(println)
  19. wordToSum.collect().foreach(println)
  20. wordToSum.collect().foreach(println)
  21.  
  22. }

打印结果如下:

(1582193859704,1)

(1582193859704,1)

(1582193859704,1)

证明检查点之间的RDD没有被重复计算。

RDD(八)——缓存与检查点的更多相关文章

  1. Spark RDD概念学习系列之RDD的缓存(八)

      RDD的缓存 RDD的缓存和RDD的checkpoint的区别 缓存是在计算结束后,直接将计算结果通过用户定义的存储级别(存储级别定义了缓存存储的介质,现在支持内存.本地文件系统和Tachyon) ...

  2. sparkRDD:第4节 RDD的依赖关系;第5节 RDD的缓存机制;第6节 DAG的生成

    4.      RDD的依赖关系 6.1      RDD的依赖 RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency ...

  3. RDD的缓存

    RDD的缓存/持久化 缓存解决的问题 缓存解决什么问题?-解决的是热点数据频繁访问的效率问题 在Spark开发中某些RDD的计算或转换可能会比较耗费时间, 如果这些RDD后续还会频繁的被使用到,那么可 ...

  4. Redis系列(八)--缓存穿透、雪崩、更新策略

    1.缓存更新策略 1.LRU/LFU/FIFO算法剔除:例如maxmemory-policy 2.超时剔除,过期时间expire,对于一些用户可以容忍延时更新的数据,例如文章简介内容改了几个字 3.主 ...

  5. 关于redis的几件小事(八)缓存与数据库双写时的数据一致性

    1.Cache aside pattern 这是最经典的 缓存+数据库 读写模式,操作如下: ①读的时候,先读缓存,缓存没有就读数据库,然后将取出的数据放到缓存,同时返回请求响应. ②更新的时候,先删 ...

  6. HTML5入门八---缓存控件元素的值

    <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...

  7. Spark RDD详解 | RDD特性、lineage、缓存、checkpoint、依赖关系

    RDD(Resilient Distributed Datasets)弹性的分布式数据集,又称Spark core,它代表一个只读的.不可变.可分区,里面的元素可分布式并行计算的数据集. RDD是一个 ...

  8. Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、

    1:什么是Spark的RDD??? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行 ...

  9. RDD缓存

    RDD的缓存 Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存数据集.当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他 ...

随机推荐

  1. 2020/2/1 PHP代码审计之变量覆盖漏洞

    0x00 变量覆盖简介 变量覆盖是指变量未被初始化,我们自定义的参数值可以替换程序原有的变量值. 0x01 漏洞危害 通常结合程序的其他漏洞实现完整的攻击,比如文件上传页面,覆盖掉原来白名单的列表,导 ...

  2. Mac 用终端(命令行)打开vscode编辑器

    1.打开控制面板(⇧⌘P) 2.输入 shell command 在提示里看到 Shell Command: Install ‘code’ command in PATH, 就可以了. 3.使用: c ...

  3. JavaEE--JNDI(上,简介)

    参考:https://blog.csdn.net/yan372397390/article/details/50450332 https://www.landui.com/help/show-6158 ...

  4. Windb实践之Script Command

    1.输出参数 .echo The first argument is ${$arg1}. .echo The fifth argument is ${$arg5}. .echo The fourth ...

  5. 五年Java经验,面试还是说不出日志该怎么写更好?——日志规范与最佳实践篇

    本文是一个系列,欢迎关注 查看上一篇文章可以扫描文章下方的二维码,点击往期回顾-日志系列即可查看所有相关文章 概览 上一篇我们讨论了为什么要使用日志框架,这次我们深入问题的根源,为什么我们需要日志? ...

  6. UVA 11019 二维匹配 AC自动机

    这个题目要求在一个大矩阵里面匹配一个小矩阵,是AC自动机的灵活应用 思路是逐行按普通AC自动机匹配,用过counts[i][j]记录一下T字符矩阵以i行j列为开头的与P等大的矩阵区域 有多少行已经匹配 ...

  7. 吴裕雄--天生自然MySQL学习笔记:MySQL 正则表达式

    下表中的正则模式可应用于 REGEXP 操作符中. 实例 查找name字段中以'st'为开头的所有数据: mysql> SELECT name FROM person_tbl WHERE nam ...

  8. JAVA课程设计——俄罗斯方块

    0.负责模块为可视化界面,技术栈为 (1)异常处理 (2)多线程 (3)文件存储 (4)Java swing 1.登陆界面 我的代码 import java.awt.Color; import jav ...

  9. 全天候式投资组合(All-weather Portfolio)

    此策略是美国知名对冲基金Bridgewater的负责人Ray Dalio长期研究的成果,其核心观点是将宏观因子,经济情景(economic scenario),和上文中提到的等风险权重(risk pa ...

  10. Dinic学习笔记

    网络流是啥不用我说了吧 增广路定理不用我说了吧 Dinic就是分层然后只在层间转移,然后就特别快,\[O(N^2M)\] 伪代码: function dinic int flow = 0 ; whil ...