Spark Streaming揭秘 Day33 checkpoint的使用

哎哟慰 2024-10-25 06:16:33 原文

Spark Streaming揭秘 Day33

checkpoint的使用

今天谈下sparkstreaming中，另外一个至关重要的内容Checkpoint。
首先，我们会看下checkpoint的使用。另外，会看下在应用程序重新启动时，是如何处理checkpoint的。

Checkpoint保存什么

checkpoint作为容错的设计，基本思路是把当前运行的状态，保存在容错的存储系统中(一般是hdfs)。对于容错的处理，肯定是围绕作业紧密相关的，保存内容包括元数据和数据两部分。

从元数据角度讲，SparkStreaming中会有哪些内容需要保存呢，主要有三类：

程序的配置
应用程序的业务逻辑，保存在DStreamGraph里。
还有哪些没有处理的数据，即没有完成的batch。

从数据角度讲下，Checkpoint是对于状态(state)操作生效。
首先，一般情况下在接收数据并保存时，是使用WAL来容错，这个昨天讨论过，并不放在checkpoint里。
对状态(state)的DStream操作(updateStateByKey)，操作会跨多个batch duration，后面数据对前面的有依赖，随着时间的推移，依赖链条会越来越长，这个时候需要使用checkpoint，把这个长链条持久化，成为短链条。

在官方例子RecoverableNetworkCount中，我们看到可以用如下方法创建一个可恢复的streamingContext。

那关键就是getOrCreate方法

里面提供了两种创建方式，第一次是创建新的streaming context，否则会从checkpoint数据中创建出上下文。第三个输入参数是Hadoop的配置，一般来说checkpoint存放在hdfs中。ignoreReadError，可以控制是否抛出异常。

让我们进入checkpoint的read方法。这里面是循环checkpoint目录中的文件，读取并反序列化，之后返回。

我们看下反序列化方法，生成一个Checkpoint类型。

Checkpoint里面包含了所有我们进行保存的内容。

使用checkpoint恢复

下面我们来看下使用checkpoint构建环境的过程。

首先，调用sparkContext.getOrCreate 来构建sparkContext。

之后是恢复DStreamGraph。

DStreamGraph的恢复过程中，关键是恢复所有的outputStream。

在恢复的过程中，默认是根据checkpoint文件重建RDD。

checkpoint的数据是保存在ReliableCheckpointRDD中，我们看下compute方法。可以看到，就是从checkpoint文件读取数据。

最后，还有恢复checkpointDuration。

Checkpoint的生成

生成是在JobGenerator中触发。

在每次生成Job后，都会触发checkpoint的写入事件。

doCheckpoint会写入一个Checkpoint对象，其核心就是采用序列化技术把对象写入磁盘。

今天对checkpoint的介绍就到这里，对于整个机制来看，还是有些漏洞，如果目录数据存在，但是代码变化了，有可能出现不能读取checkpoint里的内容，希望后续版本能改进。

欲知后事如何，且听下回分解!

DT大数据每天晚上20：00YY频道现场授课频道68917580

Spark Streaming揭秘 Day33 checkpoint的使用的更多相关文章

Spark Streaming揭秘 Day32 WAL框架及实现
Spark Streaming揭秘 Day32 WAL框架及实现今天会聚焦于SparkStreaming中非常重要的数据安全机制WAL(预写日志). 设计要点从本质点说,WAL框架是一个存储系统, ...
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕今天会逐行解析一下SparkStreaming运行的日志,运行的是WordCountO ...
Spark Streaming揭秘 Day26 JobGenerator源码图解
Spark Streaming揭秘 Day26 JobGenerator源码图解今天主要解析一下JobGenerator,它相当于一个转换器,和机器学习的pipeline比较类似,因为最终运行在Sp ...
Spark Streaming揭秘 Day13 数据安全容错(Driver篇)
Spark Streaming揭秘 Day13 数据安全容错(Driver篇) 书接上回,首先我们要考虑的是在Driver层面,有哪些东西需要维持状态,只有在需要维持状态的情况下才需要容错,总的来说, ...
Spark Streaming揭秘 Day12 数据安全容错(Executor篇)
Spark Streaming揭秘 Day12 数据安全容错(Executor篇) 今天,让我们研究下SparkStreaming在Executor端的数据安全及容错机制. 在SparkStreami ...
Spark Streaming揭秘 Day6 关于SparkStreaming Job的一些思考
Spark Streaming揭秘 Day6 关于SparkStreaming Job的一些思考 Job是SparkStreaming的重要基础,今天让我们深入,进行一些思考. Job是什么? 首先, ...
Spark Streaming揭秘 Day4-事务一致性(Exactly one)
Spark Streaming揭秘 Day4 事务一致性Exactly one 引子对于业务处理系统,事务的一致性非常的关键,事务一致性(Exactly one),简单来说,就是输入数据一定会被处理 ...
Spark Streaming揭秘 Day3-运行基石(JobScheduler)大揭秘
Spark Streaming揭秘 Day3 运行基石(JobScheduler)大揭秘引子作为一个非常强大框架,Spark Streaming兼具了流处理和批处理的特点.还记得第一天的谜团么,众 ...
Spark Streaming揭秘 Day35 Spark core思考
Spark Streaming揭秘 Day35 Spark core思考 Spark上的子框架,都是后来加上去的.都是在Spark core上完成的,所有框架一切的实现最终还是由Spark core来 ...

随机推荐

C语言第一节 C语言程序与开发工具
开发工具的选择可以用来写代码的工具:记事本.UltraEdit.Vim.Xcode等选择Xcode的原因:苹果官方提供的开发利器.简化开发过程.有高亮显示功能使用Xcode新建一个C程序的源代码 ...
sql 自定义函数--固定格式字符转时间类型
遇到一个德国的客户,他们的时间格式是JJJJ-TT-DD HH:MM:SS,程序按照这个格式将时间插入数据库,但是在sql自带的转换函数convert.cast过程中报错,网上搜了下都说用conver ...
javascript三种创建对象的方式
javascript是一种“基于prototype的面向对象语言“,与java有非常大的区别,无法通过类来创建对象.那么,既然是面象对象的,如何来创建对象呢? 一.通过”字面量“方式创建. 方法:将成 ...
探讨PHP页面跳转几种实现技巧
PHP被许多程序员用来开发WEB的首选语言.在实际开发中,网站的各项功能都可以通过PHP语言的编写来满足,比如PHP页面跳转这一方法. 探讨PHP变量解析顺序如何获取提交数据深入解读PHP运行机制 ...
Ehcache(2.9.x) - API Developer Guide, Basic Caching
Creating a CacheManager All usages of the Ehcache API start with the creation of a CacheManager. The ...
Linux 命令 - netstat: 检查网络设置及相关统计数据
netstat 程序可以用于查看不同的网络设置及数据.通过使用其丰富的参数选项,我们可以查看网络启动过程的许多特性. 命令格式 netstat [options] 命令参数 -r, --route 显 ...
Spring 数据源配置三：多数据源
在上一节中,我们讲述了多数据的情况: 1. 数据源不同(数据库厂商不同, 业务范围不同, 业务数据不同) 2. SQL mapper 文件不同, 3. mybatis + 数据方言不同即最为简单的多 ...
asp中utf8不会出现乱码的写法
<%@ CODEPAGE=65001 %> <% Response.CodePage=65001%> <% Response.Charset="UTF-8&qu ...
分享4个未注册*sdn域名
众所周知msdn和csdn在IT界享有盛誉. Microsoft Developer Network-MSDN Chinese software develop net-CSDN 分享以下4个未注册域 ...
Android之图片窗口和大小调节
结构图: 基类: package ch.halcyon.squareprogressbar.example; import android.app.Activity; import android.a ...