Apache Flink - 数据流容错机制

Apache Flink提供了一种容错机制，可以持续恢复数据流应用程序的状态。该机制确保即使出现故障，程序的状态最终也会反映来自数据流的每条记录(只有一次)。

从容错和消息处理的语义上(at least once, exactly once)，Flink引入了state和checkpoint。

state一般指一个具体的task/operator的状态。而checkpoint则表示了一个Flink Job，在一个特定时刻的一份全局状态快照，即包含了所有task/operator的状态。

Flink通过定期地做checkpoint来实现容错和恢复，容错机制连续绘制了分布式流数据流的快照。对于小状态的流应用程序，这些快照非常轻量级并且可以经常绘制，而不会对性能产生太大的影响。流应用程序的状态存储在一个可配置的地方(例如主节点或HDFS)。

如果出现程序故障(由于机器、网络或软件故障)，Flink将停止分布式流数据流。然后系统重新启动操作符并将其重新设置为最新成功的检查点。输入流被重置到状态快照的点。默认情况下，检查点是禁用的。

要使此机制实现其全部的保证，数据流源(如消息队列或代理)需要能够将流倒回到其定义的最近点。Apache Kafka可以做到，而Flink的Kafka连接器可以利用这些。

因为Flink通过分布式检查点实现快照，我们使用快照和检查点互换。

checkpointing：

检查点默认情况下不被保留，并且仅用于从失败中恢复作业。当程序被取消时，检查点被删除，你可以配置定期的检查点使他们得以保留。
Flink容错机制的核心部分是绘制分布式数据流和操作符状态的一致的快照。这些快照充当一致的检查点，在出现故障时系统可以退回到检查点。
Barriers：Flink的分布式快照的核心元素是stream barriers。这些barriers被注入到数据流中和记录一样作为数据流的一部分流动。Barriers从不会超过记录。Barriers将数据流中的记录分为进入当前快照的记录集和进入下一个快照的记录。每个barriers都带有快照的ID，该快照的记录在其前面推送。Barriers不会阻断流的流动。流barriers被注入到流数据源的并行数据流中，快照n的barriers(我们称之为Sn)被注入的点是源流中快照覆盖数据的位置。例如，在Apache Kafka中，此位置是分区中最后一条记录的偏移量。该位置Sn被报告给Flink的JobManager。然后barriers继续流动，当中间操作符从其所有输入流都收到快照n的barriers时，他会向所有输出流发出(emit)快照n的barriers。一旦操作符接收器(流DAG的末端)从它的所有输入流接收到barrier n，它就向快照n确认检查点协调器。在所有接收器确认快照后，它被视为已完成。一旦完成快照n，作业将永远不再向源请求来自Sn之前的记录，因为此时这些记录(及其后代记录)将通过整个数据流拓扑。接收多个输入流的运算符需要在快照barriers上对齐输入流。上图说明了这一点：

一旦操作员从输入流接收到快照barriers n，它就不能处理来自该流的任何其他记录(而是缓存)，直到它从其他输入接收到barrier n为止。否则它会混合属于快照n和属于快照n + 1的记录。(begin aligning - aligning)
报告barrier n的流暂时被搁置。从这些流接收的记录不会被处理，而是放入输入缓冲区。(aligning)
一旦最后一个输入流接收到barrier n，操作符就会发出所有挂起的传出记录，然后自己发出快照n的barriers。(checkpoint - continue)
之后，它恢复处理来自所有输入流的记录，在处理来自流的记录之前处理来自输入缓冲区的记录。(continue)

State：当运算符包含任何形式的状态时，此状态也必须是快照的一部分。运算符状态有不同的形式：

用户定义的状态：这是由转换函数(如map()或filter())直接创建和修改的状态。
系统状态：此状态是指作为运算符计算一部分的数据缓冲区。此状态的典型示例是窗口缓冲区，系统在其中收集(和聚合)窗口记录，直到窗口被评估和逐出。运算符在他们从输入流接收到所有快照barriers时，在向其输出流发出barriers之前立即对其状态进行快照。此时，将根据barriers之前的记录对状态进行所有更新，并且在应用barriers之后不依赖于记录的更新。由于快照的状态可能很大，因此它存储在可配置的状态后端(state backend)中。默认情况下，这是JobManager的内存，但对于生产使用，应配置分布式可靠存储(例如HDFS)。在存储状态之后，运算符确认检查点，将快照barriers发送到输出流中，然后继续。

生成的快照现在包含：

对于每个并行流数据源，启动快照时流中的偏移/位置。
对于每个运算符，指向作为快照的一部分存储的状态的指针。

仅有一次或至少一次：对齐(alignment)步骤可以增加流式传输程序的等待时间。Flink可以在检查点期间跳过流对齐。一旦运算符看到每个输入的检查点barrier，仍然会绘制检查点快照。当跳过对齐时，即使在检查点n的某些检查点barrier到达之后，运算符仍继续处理所有输入。这样，操作员还可以在获取检查点n的状态快照之前处理属于检查点n + 1的元素。在还原时，这些记录将作为重复记录出现，因为它们都包含在检查点n的状态快照中，并将在检查点n之后作为数据的一部分进行重放。对齐仅适用于具有多个前驱(连接)的运算符以及具有多个发送方的运算符(在流重新分区/随机播放之后)。正因为如此，即使在至少一次(at least once)模式中，数据流实际上在尴尬的并行流操作(map()，flatMap()，filter()，...)中给了正好一次(exactly once)保证。

异步状态快照：上述机制意味着运算符在将状态的快照存储在状态后端时停止处理输入记录。每次拍摄快照时，此同步状态快照都会引入延迟。可以让运算符在存储状态快照时继续处理，有效地让状态快照在后台异步发生。为此，运算符必须能够生成一个状态对象，该状态对象应以某种方式存储，以便对运算符状态的进一步修改不会影响该状态对象。在接收到输入的检查点barriers后，运算符启动其状态的异步快照复制。它立即释放其输出的barriers，并继续进行常规流处理。后台复制过程完成后，它会向检查点协调者(JobManager)确认检查点。检查点现在仅在所有接收器都已收到barriers并且所有有状态运算符已确认其完成备份(可能在barriers到达接收器之后)之后才完成。

恢复：当失败时，Flink选择最新完成的检查点k。然后，系统重新部署整个分布式数据流，并为每个操作符提供作为检查点k的一部分的快照的状态。设置源从位置Sk开始读取流。例如，在Apache Kafka中，这意味着告诉消费者从偏移量Sk开始提取。如果状态以递增方式快照，则运算符从最新完整快照的状态开始，然后对该状态应用一系列增量快照进行更新。

运算符快照实现：在执行运算符快照时，有同步和异步两部分。运算符和状态后端将他们的快照作为一个Java FutureTask。该任务包含已完成的同步部分且处于挂起状态的异步部分。然后异步部分由该检查点的后台线程执行。检查点纯粹同步地返回已经完成的运算符FutureTask，如果需要执行异步操作，则以该run()方法执行FutureTask。任务是可取消的，因此流和其他消耗句柄的资源是可以被释放的。

Apache Flink - 数据流容错机制的更多相关文章

Flink资料（2）-- 数据流容错机制
数据流容错机制该文档翻译自Data Streaming Fault Tolerance,文档描述flink在流式数据流图上的容错机制. ------------------------------- ...
Apache Flink 数据流编程模型
抽象等级(Levels of Abstraction) Flink提供不同级别的抽象来开发流/批处理应用程序. Statefule Stream Processing: 是最低级别(底层)的抽象,只提 ...
Apache Flink系列（1）-概述
一.设计思想及介绍基本思想:“一切数据都是流,批是流的特例” 1.Micro Batching 模式在Micro-Batching模式的架构实现上就有一个自然流数据流入系统进行攒批的过程,这在一定 ...
Flink原理（五）——容错机制
本文是博主阅读Flink官方文档以及<Flink基础教程>后结合自己理解所写,若有表达有误的地方欢迎大伙留言指出. 1. 前言流式计算分为有状态和无状态两种情况,所谓状态就是计算过程中 ...
Flink 容错机制与状态
简介 Apache Flink提供了一种容错机制,可以持续恢复数据流应用程序的状态. 该机制确保即使出现故障,经过恢复,程序的状态也会回到以前的状态. Flink 主持 at least once 语 ...
Apache Flink
Flink 剖析 1.概述在如今数据爆炸的时代,企业的数据量与日俱增,大数据产品层出不穷.今天给大家分享一款产品—— Apache Flink,目前,已是 Apache 顶级项目之一.那么,接下来, ...
Apache Flink 介绍
原文地址:https://mp.weixin.qq.com/s?__biz=MzU2Njg5Nzk0NQ==&mid=2247483660&idx=1&sn=ecf01cfc8 ...
Apache Flink：特性、概念、组件栈、架构及原理分析
2016-04-30 22:24:39 Yanjun Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时(Flink Runtim ...
Apache Flink 的迁移之路，2 年处理效果提升 5 倍
一.背景与痛点在 2017 年上半年以前,TalkingData 的 App Analytics 和 Game Analytics 两个产品,流式框架使用的是自研的 td-etl-framework ...

随机推荐

ElementUI对话框（dialog）提取为子组件
需求:在页面的代码太多,想把弹窗代码提取为子组件,复用也方便. 这里涉及到弹窗el-dialog的一个属性show-close: show-close="false"是设置不显 ...
java - day013 - 流, FileInputStream, BufferedInputStream,
流 Stream 把数据的读写,抽象成数据在管道中流动. 流是单向的输入流, 只能用来读取数据输出流, 只能用来输出数据流只能顺序读写数据流只能一次性从头到尾读写数据流动过的数据,不能反复流 ...
CEIWEI CommTone串口调试精灵7.1 串口调试串口工具
CEIWEI CommTone串口调试精灵是一款功能强大的串行端口通信调试软件,内嵌超过100种标准的CRC校验功能,并支校验结果高低位字节前导转换:支持批量协议调试,并支持文件.16进制.UN ...
djangoform表单使用验证码
8.1.安装captcha 直接安装:pip install django-simple-captcha Django自动帮我们安装了相关的依赖库six.olefile和Pillow,其中的Pillo ...
MySQL进阶16 - 视图的创建/修改/删除/更新--可更新性的不适用条件
#进阶16 : 视图 /* 含义: 虚拟表,和普通表一样使用;(从5.1开始使用的:)是通过表动态生成的数据创建语法: create view 视图名 as 查询语句; ---------- 作用: ...
使用python控制nginx禁封ip
python控制nginx禁封ip nginx中的access.log最近有大量的用户访问,怎么样屏蔽掉在一定时间段内访问次数多的ip呢? 测试准备: 两个tomcat,一个nginx做均衡负载,服务 ...
Robot Framework--接口测试中常见的四种POST方式
写接口测试用例时,遇到以json格式提交数据时,报错,Request如下图: Response如下图: 改成form格式提交,可以正常运行,如下图: 代码如下: ------------------- ...
Hive和HBase的区别转载：https://www.cnblogs.com/guoruibing/articles/9894521.html
1.Hive和HBase的区别 1)hive是sql语言,通过数据库的方式来操作hdfs文件系统,为了简化编程,底层计算方式为mapreduce. 2)hive是面向行存储的数据库. 3)Hive本身 ...
Core DOM、HTML DOM、XML DOM关系
查看:https://blog.csdn.net/IamChuancey/article/details/78335443
JavaScript常用的方法
indexOf() 功能:indexOf() 方法返回调用 String 对象中第一次出现的指定值的索引. 语法:indexOf(searchValue, fromIndex) searchValue ...

Apache Flink - 数据流容错机制

Apache Flink - 数据流容错机制的更多相关文章

随机推荐

热门专题