Spark- Checkpoint原理剖析

　　Checkpoint，是Spark 提供的一个比较高级的功能。有的时候，比如说，我们的 Spark 应用程序，特别的复杂，然后从初始的RDD开始，到最后拯个应用程序完成，有非常多的步骤，比如超过20个transformation 操作。而且整个应用运行的时间也特别的长，比如通常要运行1-5小时。

　　在上述的情况下，就比较适合使用checkpoint 功能。因为，对于特别复杂的 Spark应用，有很高的风险，会出现某个要反复使用的RDD，因为节点的故障,虽然之前持久化过，但是还是导致数据丢失了。那么也就是说，出现失败的时候，没有容错机制，所以当后面的 transformation 操作，又要使用到该RDD时，就会发现数据丢失了（Cache Manager），此时如果没有进行容错处理的话，那么可能就又要重新计算一次数据。简而言之，针对上诉情况，整个Spark应用程序的容错性很差。

　　所以，针对上诉的复杂Spark 应用的问题（没有容错机制的问题）。就可以使用checkpoint 功能。

　　checkpoint的功能是什么意思？checkpoint就是说，对于一个复杂的RDD chain，我们如果担心中间某些关键的，在后面会反复几次使用的RDD，可能会因为节点的故障，导致持久化数据的丢失，那么就可以针对该RDD格外启动 checkpoint 机制，实现容错和高可用。

　　checkpoint 首先要调用 SparkContext 的Checkpoint() 方法，设置一个容错的文件系统的目录，比如说 HDFS ；然后，对RDD调用checkpoint() 方法。之后，在RDD所处的 job 运行结束之后，会启动一个单独的 job，来将checkpoint 过的RDD数据写入之前设置的文件系统，进行高可用、容错的类持久化操作。

　　那么此时，即便在后面使用RDD时，他的持久话的数量，不小心丢失了，但是还是可以从它的checkpoint文件中直接读取数据，而不是重新计算。

Spark- Checkpoint原理剖析的更多相关文章

24、Checkpoint原理剖析
一.原理 1.Checkpoint是什么 Checkpoint,是Spark提供的一个比较高级的功能. 有的时候,比如说,我们的Spark应用程序,特别的复杂,然后呢,从初始的RDD开始,到最后整个应 ...
Spark Streaming 原理剖析
通过源码呈现 Spark Streaming 的底层机制. 1. 初始化与接收数据 Spark Streaming 通过分布在各个节点上的接收器,缓存接收到的流数据,并将流数据包装成 Spar ...
Spark集群基础概念与 spark架构原理
一.Spark集群基础概念将DAG划分为多个stage阶段,遵循以下原则: 1.将尽可能多的窄依赖关系的RDD划为同一个stage阶段. 2.当遇到shuffle操作,就意味着上一个stage阶段结 ...
[Spark内核] 第32课：Spark Worker原理和源码剖析解密：Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等
本課主題 Spark Worker 原理 Worker 启动 Driver 源码鉴赏 Worker 启动 Executor 源码鉴赏 Worker 与 Master 的交互关系 [引言部份:你希望读者 ...
66、Spark Streaming：数据处理原理剖析与源码分析（block与batch关系透彻解析）
一.数据处理原理剖析每隔我们设置的batch interval 的time,就去找ReceiverTracker,将其中的,从上次划分batch的时间,到目前为止的这个batch interval ...
46、Spark SQL工作原理剖析以及性能优化
一.工作原理剖析 1.图解二.性能优化 1.设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf()) 2.在Hive数据 ...
4、wordcount程序原理剖析及Spark架构原理
一.wordcount程序原理深度剖析二.Spark架构原理 1.
Spark剖析-宽依赖与窄依赖、基于yarn的两种提交模式、sparkcontext原理剖析
Spark剖析-宽依赖与窄依赖.基于yarn的两种提交模式.sparkcontext原理剖析一.宽依赖与窄依赖二.基于yarn的两种提交模式深度剖析 2.1 Standalne-client 2. ...
大话Spark(6)-源码之SparkContext原理剖析
SparkContext是整个spark程序通往集群的唯一通道,他是程序的起点,也是程序的终点. 我们的每一个spark个程序都需要先创建SparkContext,接着调用SparkContext的方 ...
Spark Worker原理和源码剖析解密：Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等
本课主题 Spark Worker 原理 Worker 启动 Driver 源码鉴赏 Worker 启动 Executor 源码鉴赏 Worker 与 Master 的交互关系 Spark Worke ...

随机推荐

iOS开发之 AES+Base64数据混合加密与解密
2016-04-08 09:03 编辑: liubinqww 分类:iOS开发来源:liubinqww 投稿 4 889 "APP的数据安全已经牵动着我们开发者的心,简单的MD5/ ...
50条SQL查询技巧、查询语句示例
学习了 1.查询“001”课程比“002”课程成绩高的所有学生的学号: 2.查询平均成绩大于60分的同学的学号和平均成绩: 3.查询所有同学的学号.姓名.选课数.总成绩: 4.查询姓“李”的老师的个数 ...
Elasticsearch5.3 学习（一）：安装、Yii2.0 下载es扩展
Elasticsearch是一个基于Lucene,提供了一个分布式多用户能力的全文搜索引擎.其他就不多说了,官方文档有详细的介绍. 我自己是在CentOS 7.0安装的 Elasticsearch 是 ...
synchronized是什么
在再有人问你Java内存模型是什么,就把这篇文章发给他中我们曾经介绍过,Java语言为了解决并发编程中存在的原子性.可见性和有序性问题,提供了一系列和并发处理相关的关键字,比如synchron ...
使用js生成下拉列表项
在项目中经常会使用到一个简单的表单元素,那就是下拉列表.但是由于企业的列表项并不是固定的,因此列表项的内容需要到数据库或者接口中取,因此怎样获取,并且能应用到多个相似的下拉列表就需要思考一下. 我这 ...
传统数据仓库架构与Hadoop的区别
一, 下面一张图为传统架构和Hadoop的区别主要讲以下横向扩展和扩展横向扩展:(Mpp 是hash分布,具有20节点)添加新的设备和现有的设备一起提供负载能力.Hadoop中系统扩容时,系统平台增 ...
【Atheros】内核调试及网卡加载等问题小结
我做的其他很多工作就比较有针对性了,不是什么大众性的问题,比如加统计代码.实现自己的速率调整算法或者加一些自己的控制什么的,就不再单独介绍了,最后呢再罗列一些小问题,供参考. 1. 加载模块(执行wi ...
XML5632 : Only one root element is allowed. Line: 1, Column 1
奇葩啊, 最后查出来是因为有一个svg文件名对不上...
2016 acm香港网络赛 C题. Classrooms（贪心）
原题网址:https://open.kattis.com/problems/classrooms Classrooms The new semester is about to begin, and ...
批处理--md5校检
@echo off rem 获取文件xx.zip的MD5 for /f "delims=" %%i in ('md5.exe xx.zip') do (set md5_var=%% ...

Spark- Checkpoint原理剖析

Spark- Checkpoint原理剖析的更多相关文章

随机推荐

热门专题