Spark-Cache与Checkpoint

一、Cache缓存操作

scala> val rdd1 = sc.textFile("hdfs://192.168.146.111:9000/logs")
rdd1: org.apache.spark.rdd.RDD[String] = hdfs://192.168.146.111:9000/logs MapPartitionsRDD[38] at textFile at <console>:24
 
scala> rdd1.count
res13: Long = 40155                                                             
 
scala> rdd1.count
res14: Long = 40155
 
scala> val rdd2 = sc.textFile("hdfs://192.168.146.111:9000/logs")
rdd2: org.apache.spark.rdd.RDD[String] = hdfs://192.168.146.111:9000/logs MapPartitionsRDD[40] at textFile at <console>:24
 
scala> val rdd2Cache = rdd2.cache
rdd2Cache: rdd2.type = hdfs://192.168.146.111:9000/logs MapPartitionsRDD[40] at textFile at <console>:24
 
scala> rdd2Cache.count
res15: Long = 40155
 
scala> rdd2Cache.count
res16: Long = 40155
 
scala> rdd2Cache.count
res17: Long = 40155

二、Checpoint机制

scala> sc.setCheckpointDir("hdfs://192.168.146.111:9000/chechdir")
 
scala> val rddc = rdd1.filter(_.contains("bigdata"))
rddc: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[41] at filter at <console>:26
 
scala> rddc.checkpoint
 
scala> rddc.count
res21: Long = 7155

Spark-Cache与Checkpoint的更多相关文章

Spark cache、checkpoint机制笔记
Spark学习笔记总结 03. Spark cache和checkpoint机制 1. RDD cache缓存当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出 ...
RDD中的cache() persist() checkpoint()
cache只有一个默认的缓存级别MEMORY_ONLY ,而persist可以根据StorageLevel设置其它的缓存级别. cache以及persist都不是action. 被重复使用的(但是)不 ...
RDD的cache 与 checkpoint 的区别
问题:cache 与 checkpoint 的区别? 关于这个问题,Tathagata Das 有一段回答: There is a significant difference between cac ...
Spark Streaming metadata checkpoint
Checkpointing 一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等).为了使这成为可能,Spark Streaming需要checkpoint足 ...
Spark(七)【RDD的持久化Cache和CheckPoint】
RDD的持久化 1. RDD Cache缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存,默认情况下会把数据以缓存在JVM的堆内存中.但是并不是这两个方法被调用时立即缓存,而是 ...
【原创】大叔经验分享（39）spark cache unpersist级联操作
问题:spark中如果有两个DataFrame(或者DataSet),DataFrameA依赖DataFrameB,并且两个DataFrame都进行了cache,将DataFrameB unpersi ...
Spark cache 和 persist
1)RDD的cache()方法其实调用的就是persist方法,缓存策略均为MEMORY_ONLY:2)可以通过persist方法手工设定StorageLevel来满足工程需要的存储级别:3)cach ...
Spark 中的 checkpoint
为了实现容错,需要做checkpoint.以Streaming为例,checkpoint中有两种数据: 1. Metadata checkpointing:用于恢复driver端出错的情况.其中包含: ...
spark cache table
http://www.07net01.com/2015/11/961118.html http://www.cnblogs.com/charlotte77/p/5468968.html 文本读入和写出 ...
spark checkpoint详解
checkpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS ...

随机推荐

Perl操作Oracle
一. perl连接Oracle数据库 [oracle@oracle11gR2 perl_script]$ more connect.pl #!/usr/bin/perl #perl script us ...
patrol_data_unit_edit.jsp
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <%@ page language ...
Python学习(26)：Python函数式编程
转自 http://www.cnblogs.com/BeginMan/p/3509985.html 前言 <core python programming 2>说: Python不大可能 ...
Esper学习之八：EPL语法（四）
关于EPL,已经写了三篇了,预估计了一下,除了今天这篇,后面还有5篇左右.大家可别嫌多,官方的文档对EPL的讲解有将近140页,我已经尽量将废话都干掉了,再配合我附上的例子,看我的10篇文章比那140 ...
LeetCode 48 Rotate Image（2D图像旋转问题）
题目链接: https://leetcode.com/problems/rotate-image/?tab=Description Problem:给定一个n*n的二维图片,将这个二维图片按照顺时 ...
【BZOJ5146】有趣的概率概率+组合数（微积分）
[BZOJ5146]有趣的概率 Description "可爱的妹子就像有理数一样多,但是我们知道的,你在数轴上随便取一个点取到有理数的概率总是0,"芽衣在床上自顾自的说着这句充满 ...
linux下jmeter持续集成Jenkins部署时问题解决
之前成linux下安装了Jenkins,并做了一些简单的工作,这次正好将jmeter也集成进去,在实际操作时发现好多坑,写下做记录怎么安装这里就不介绍了,网上很多资料,这里只记录问题,以供大家参数 ...
Unity3D笔记愤怒的小鸟<六> 弹弓发射小鸟
要实现的目标实现个性化的鼠标实现弹弓选择小鸟.拉升弹弓.发射小鸟弹弓橡皮筋声音 1.实现个性化鼠标效果 2.添加弹弓建立两个材质创建一个空GameObject 把两个shoot拖进来统 ...
springMVC 报错：Unknown return value type: java.lang.Integer
controller层返回值类型为Integer,运行报错: Unknown return value type: java.lang.Integer 解决办法:在此方法上写上注解 @Response ...
nodejs事件的监听与事件的触发
nodejs事件(Events) 一.事件机制的实现 Node.js中大部分的模块,都继承自Event模块(http://nodejs.org/docs/latest/api/events.html ...

Spark-Cache与Checkpoint

Spark-Cache与Checkpoint的更多相关文章

随机推荐

热门专题