Flink-v1.12官方网站翻译-P024-Checkpointing
检查点
Flink中的每一个函数和操作符都可以是有状态的(详情请看使用状态)。有状态的函数在单个元素/事件的处理过程中存储数据,使得状态成为任何类型的更复杂操作的关键构建模块。
为了使状态具有容错性,Flink需要对状态进行检查点。检查点允许Flink恢复流中的状态和位置,使应用程序具有与无故障执行相同的语义。
关于流式容错的文档详细描述了Flink的流式容错机制背后的技术。
前置条件
Flink的检查点机制与流和状态的持久存储交互。一般来说,它需要
- 一个能在一定时间内重放记录的持久(或耐用)数据源。这种来源的例子是持久性消息队列(如Apache Kafka、RabbitMQ、Amazon Kinesis、Google PubSub)或文件系统(如HDFS、S3、GFS、NFS、Ceph...)。
- 状态的持久性存储,通常是一个分布式文件系统(如HDFS、S3、GFS、NFS、Ceph...)。
启用和配置检查点
默认情况下,检查点被禁用。要启用检查点,在StreamExecutionEnvironment上调用enableCheckpointing(n),其中n是检查点间隔,单位为毫秒。
检查点的其他参数包括
- exactly-once vs. at-least-once:你可以选择向enableCheckpointing(n)方法传递一个模式,以便在两个保证级别之间进行选择。对于大多数应用来说,exactly-once是比较好的。At-least-once可能适用于某些超低延迟(持续几毫秒)的应用。
- 检查点超时。如果一个正在进行中的检查点没有完成,那么它被中止的时间。
- 检查点之间的最小时间。为了确保流应用在检查点之间有一定的进度,可以定义检查点之间需要经过多少时间。例如,如果这个值设置为5000,那么下一个检查点将在上一个检查点完成后不早于5秒开始,无论检查点持续时间和检查点间隔如何。请注意,这意味着检查点间隔永远不会小于这个参数。
- 通过定义 "检查点之间的时间 "通常比检查点间隔更容易配置应用程序,因为 "检查点之间的时间 "不容易受到检查点有时可能比平均时间长的事实的影响(例如,如果目标存储系统暂时缓慢)。
- 请注意,这个值也意味着并发检查点的数量为1。
- 并发检查点的数量。默认情况下,当一个检查点仍在进行时,系统不会触发另一个检查点。这可以确保拓扑不会在检查点上花费太多时间,而使处理流的工作没有进展。可以允许多个重叠的检查点,这对于那些有一定处理延迟(例如因为函数调用外部服务,需要一些时间来响应),但仍然希望做非常频繁的检查点(100s毫秒),以便在故障时重新处理很少的管道来说是很有意思的。
- 当定义了检查点之间的最小时间时,不能使用这个选项。
- 外部化检查点。您可以配置周期性检查点,使其在外部持久化。外部化的检查点会将它们的元数据写入持久化存储中,当作业失败时不会自动清理。这样一来,如果你的工作失败了,你身边就会有一个检查点来恢复。关于外部化检查点的部署说明中有更多细节。
- Fail/continue task on checkpoint errors。这决定了如果在执行任务的检查点过程中出现错误,任务是否会失败。这是默认行为。另外,当禁用该功能时,任务将简单地拒绝向检查点协调器提供检查点并继续运行。
- 更喜欢用于恢复的检查点。这决定了即使有更近的保存点可用时,任务是否会回退到最新的检查点,以减少恢复时间。
- 不对齐的检查点。你可以启用不对齐的检查点,以大大减少背压下的检查点时间。只适用于精确的一次检查点,并且并发检查点的数量为1。
val env = StreamExecutionEnvironment.getExecutionEnvironment() // start a checkpoint every 1000 ms
env.enableCheckpointing(1000) // advanced options: // set mode to exactly-once (this is the default)
env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE) // make sure 500 ms of progress happen between checkpoints
env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500) // checkpoints have to complete within one minute, or are discarded
env.getCheckpointConfig.setCheckpointTimeout(60000) // prevent the tasks from failing if an error happens in their checkpointing, the checkpoint will just be declined.
env.getCheckpointConfig.setFailTasksOnCheckpointingErrors(false) // allow only one checkpoint to be in progress at the same time
env.getCheckpointConfig.setMaxConcurrentCheckpoints(1) // enables the experimental unaligned checkpoints
env.getCheckpointConfig.enableUnalignedCheckpoints()
相关配置选项
更多的参数和/或默认值可以通过conf/flink-conf.yaml来设置(参见配置的完整指南)。
Key | Default | Type | 描述 |
---|---|---|---|
state.backend |
(none) | String | 用于存储和检查状态的状态后端。 |
state.backend.async |
true | Boolean |
状态后端是否应该在可能的情况下使用异步快照方法的选项,可配置。有些状态后端可能不支持异步快照,或者只支持异步快照,而忽略这个选项。 |
state.backend.fs.memory-threshold |
20 kb | MemorySize |
状态数据文件的最小尺寸。小于这个大小的所有状态块都内嵌存储在根检查点元数据文件中。此配置的最大内存阈值为1MB。 |
state.backend.fs.write-buffer-size |
4096 | Integer |
写入文件系统的检查点流的默认写缓冲区大小。实际的写入缓冲区大小是由这个选项和选项'state.backend.fs.memory-threshold'的值的最大值决定的。 |
state.backend.incremental |
false | Boolean |
如果可能,状态后端是否应该创建增量检查点。对于增量检查点,只存储与前一个检查点的差异,而不是完整的检查点状态。一旦启用,在web UI中显示的状态大小或从休息API中获取的状态大小只代表delta检查点大小,而不是完整的检查点大小。一些状态后端可能不支持增量检查点而忽略这个选项。 |
state.backend.local-recovery |
false | Boolean |
这个选项可以配置这个状态后端的本地恢复。默认情况下,本地恢复是被停用的。本地恢复目前只覆盖键控状态后端。目前,MemoryStateBackend不支持本地恢复,忽略此选项。 |
state.checkpoints.dir |
(none) | String |
在Flink支持的文件系统中,用于存储检查点数据文件和元数据的默认目录。该存储路径必须可以从所有参与进程/节点(即所有任务管理器和工作管理器)访问。 |
state.checkpoints.num-retained |
1 | Integer |
保留已完成的检查点的最大数量。 |
state.savepoints.dir |
(none) | String |
保存点的默认目录。由将保存点写入文件系统的状态后端(MemoryStateBackend, FsStateBackend, RocksDBStateBackend)使用。 |
taskmanager.state.local.root-dirs |
(none) | String | 配置参数,定义本地恢复中存储基于文件的状态的根目录。本地恢复目前只覆盖键态后端。目前,MemoryStateBackend不支持本地恢复,忽略这个选项。 |
选择状态后端
Flink的检查点机制在定时器和有状态的操作符中存储所有状态的一致快照,包括连接器、窗口和任何用户定义的状态。检查点的存储位置(例如,JobManager内存、文件系统、数据库)取决于配置的状态后端。
默认情况下,状态保存在TaskManagers的内存中,检查点保存在JobManager的内存中。为了正确地持久化大状态,Flink支持各种方法在其他状态后端存储和检查点状态。状态后端的选择可以通过StreamExecutionEnvironment.setStateBackend(...)来配置。
关于可用的状态后端以及作业范围和集群范围配置的选项,请参见状态后端。
迭代作业中的状态检查点
Flink目前只为没有迭代的作业提供处理保证。在迭代作业上启用检查点会导致异常。为了在迭代程序上强制检查点,用户需要在启用检查点时设置一个特殊标志:env.enableCheckpointing(interval, CheckpointingMode.EXACTLY_ONCE, force = true)。
请注意,循环边缘中飞行中的记录(以及与之相关的状态变化)将在失败时丢失。
重新启动策略
Flink支持不同的重启策略,这些策略可以控制作业在发生故障时如何重启。更多信息,请参阅重启策略。
Flink-v1.12官方网站翻译-P024-Checkpointing的更多相关文章
- Flink-v1.12官方网站翻译-P005-Learn Flink: Hands-on Training
学习Flink:实践培训 本次培训的目标和范围 本培训介绍了Apache Flink,包括足够的内容让你开始编写可扩展的流式ETL,分析和事件驱动的应用程序,同时省略了很多(最终重要的)细节.本书的重 ...
- Flink-v1.12官方网站翻译-P025-Queryable State Beta
可查询的状态 注意:可查询状态的客户端API目前处于不断发展的状态,对所提供接口的稳定性不做保证.在即将到来的Flink版本中,客户端的API很可能会有突破性的变化. 简而言之,该功能将Flink的托 ...
- Flink-v1.12官方网站翻译-P004-Flink Operations Playground
Flink操作训练场 在各种环境中部署和操作Apache Flink的方法有很多.无论这种多样性如何,Flink集群的基本构件保持不变,类似的操作原则也适用. 在这个操场上,你将学习如何管理和运行Fl ...
- Flink-v1.12官方网站翻译-P002-Fraud Detection with the DataStream API
使用DataStream API进行欺诈检测 Apache Flink提供了一个DataStream API,用于构建强大的.有状态的流式应用.它提供了对状态和时间的精细控制,这使得高级事件驱动系统的 ...
- Flink-v1.12官方网站翻译-P021-State & Fault Tolerance-overview
状态和容错 在本节中,您将了解Flink为编写有状态程序提供的API.请看一下Stateful Stream Processing来了解有状态流处理背后的概念. 下一步去哪里? Working wit ...
- Flink-v1.12官方网站翻译-P017-Execution Mode (Batch/Streaming)
执行模式(批处理/流处理) DataStream API 支持不同的运行时执行模式,您可以根据用例的要求和作业的特点从中选择.DataStream API 有一种 "经典 "的执行 ...
- Flink-v1.12官方网站翻译-P015-Glossary
术语表 Flink Application Cluster Flink应用集群是一个专用的Flink集群,它只执行一个Flink应用的Flink作业.Flink集群的寿命与Flink应用的寿命绑定. ...
- Flink-v1.12官方网站翻译-P010-Fault Tolerance via State Snapshots
通过状态快照进行容错 状态后台 Flink管理的键控状态是一种碎片化的.键/值存储,每项键控状态的工作副本都被保存在负责该键的任务管理员的本地某处.操作员的状态也被保存在需要它的机器的本地.Flink ...
- Flink-v1.12官方网站翻译-P008-Streaming Analytics
流式分析 事件时间和水印 介绍 Flink明确支持三种不同的时间概念. 事件时间:事件发生的时间,由产生(或存储)该事件的设备记录的时间 摄取时间:Flink在摄取事件时记录的时间戳. 处理时间:您的 ...
随机推荐
- 腾讯IOT安卓开发初探
目录 腾讯IOT 安卓开发初探 Tecent IOT 开发平台的使用 新建项目 创建产品 添加自定义功能 设备开发 微信小程序配置 面板配置 新建设备 使用设备 安卓开发 前置配置 data.json ...
- MYSQL 字符集设置(终端的字符集)
每次利用终端 创建数据库或者创建表的时候,字符集都是latin1(不指定字符集的时候)如下: 查看当前数据库的字符集 character_set_client:客户端请求数据的字符集character ...
- postgresql-从表中随机获取一条记录
目录 postgresql如何从表中高效的随机获取一条记录 随机获取一条记录random() 改写1 改写2 改写3 对比 注意 结语 postgresql如何从表中高效的随机获取一条记录 selec ...
- 我的程序员之路:自学Java篇
序章 时光疾驰,从事IT行业已两年有余. 16年11月开始自学Java,从此开启自学之路,后来实习期自学大数据.python.爬虫等,最终成长为一名平凡的程序员.回首望去,一路上的过往历历在目,有初学 ...
- 【Git】简易使用教程
Git简介 诞生 简单的来说,就是为了托管庞大的Linux源码,开始选择了商用的版本控制系统BitKeeper,但是因为一系列操作,BitKeeper不让用了,所以Linus花了两周时间自己用C写了一 ...
- IntelliJ IDEA启动界面的秘密:当编程遇到艺术
细心的同学会发现Intellij IDEA每次发版本的时候都会有不同的启动界面背景,都很比较抽象的艺术图像. JetBrains的其它产品也有自己独特的设计. 但是这背后是怎么实现的.有什么寓意却很少 ...
- 【Java】单例模式(Singleton)
重新搞一波 复习巩固 简单记录 慕课网 Java工程师 文章目录 单例概述 设计模式 单例模式(Singleton) 参考资料 单例概述 Singleton Pattern 单例模式是Java中最简单 ...
- Lnux:实验 Linux C 编程
实验题目: 实验 3 Linux C 编程 实验目的和要求: 熟悉 Linux 操作系统环境 在 Linux 下编写.执行简单的 C 程序 用 C 语言写自己的 Linux 命令 实验过程: 认真 ...
- HTML5表格详细教程
HTML5表格 文章目录 HTML5表格 5.1 定义表格 5.1.1 普通表格.列标题 5.1.2 表格标题 5.1.3 表格行分组.表格列分组 5.2 表格属性 5.2.1 单线表格.分离单元格 ...
- IP2723T中文规格书PDF
IP2723T 是一款集成多种协议.用于 USB 输出端口的快充协议 IC.支持多种快充协议,包括 USBTypeC DFP,PD2.0/PD3.0/PPS,HVDCPQC4/QC4+/QC3.0/Q ...