如何获取流式应用程序中checkpoint的最新offset

对于流式应用程序，保证应用7*24小时的稳定运行，是非常必要的。因此对于计算引擎，要求必须能够适应与应用程序逻辑本身无关的问题（比如driver应用失败重启、网络问题、服务器问题、JVM崩溃等），具有自动容错恢复的功能。

目前，Spark（Spark Streaming/Structured Streaming）和Flink的checkpoint机制，就是处理类似情况，实现容错机制的核心利器。

对于Flink：

为了保证其高可用、Exactly Once的特性，提供了一套强大的checkpoint机制，它能够根据配置周期性地基于流中各个operator的状态来生成快照，从而将这些状态数据定期持久化存储下来，当Flink程序一旦出现故障时，能够将整个应用流程序恢复到故障前的某一种态，从而修正因为故障带来的程序数据状态中断。

对于Spark：

在流式应用中，Spark Streaming/Structured Streaming会将关于应用足够多的信息checkpoint到高可用、高容错的分布式存储系统，如HDFS中，以便从故障中进行恢复。checkpoint有两种类型的数据：

1. 数据checkpoint

对于一些复杂程序，比如跨多个批次组合数据的有状态转换，生成的RDD依赖于先前批次的RDD，导致依赖链的长度随批次的增加而增加。因为故障恢复时间与依赖链成正比，从而导致恢复时间也跟着增长。因此就有必要周期性的将RDD checkpoint到可靠的分布式存储系统中，以此切断依赖链。

这在Spark中的状态算子，如mapWithState、updateStateByKey中尤为常见。

2. 元数据checkpoint

顾名思义，就是将定义流式应用程序中的信息保存到容错系统中，用于从运行流应用程序的driver节点发生故障时，进行容错恢复。元数据包括：

a. 配置：用于创建流应用程序DStream操作：

b. 定义流应用程序的DStream操作集

c. 未完成的批次：未完成的批次job

本文的重点不在于checkpoint具体含义，而是以Spark为例，阐述如何通过程序获取checkpoint中最新的offset，以此为思路，来解决生产中的实际问题。

通常我们会checkpoint到HDFS，首先来看一下checkpoint信息：

offsets目录记录了每个批次中的offset，此目录中的第N条记录表示当前正在处理，第N-1个及之前的记录指示哪些偏移已处理完成。

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/commits

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/metadata

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/receivedData

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/sources

hdfs dfs -ls /bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets/0

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets/1

/bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets/2

hdfs dfs -cat /bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets/2

v1

{"batchWatermarkMs":0,"batchTimestampMs":1590632490083,"conf":{"spark.sql.streaming.stateStore.providerClass":"org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider","spark.sql.streaming.flatMapGroupsWithState.stateFormatVersion":"2","spark.sql.streaming.multipleWatermarkPolicy":"min","spark.sql.streaming.aggregation.stateFormatVersion":"2","spark.sql.shuffle.partitions":"1"}}

2400000001667289

最终获取最新offset的程序示例：

/**

  * @Author bigdatalearnshare

  */

object ReadOffsets {

  def main(args: Array[String]): Unit = {

    val path = "/bigdatalearnshare/checkpointLocation/binlog-2-kafka/offsets/2"

    val fs = FileSystem.get(new Configuration())

    val lastFile = fs.listStatus(new Path(path)).filterNot(_.getPath.getName.endsWith(".tmp.crc"))

      .map { fileName =>

        (fileName.getPath.getName.split("/").last.toInt, fileName.getPath)

      }.maxBy(_._1)._2

    val offset = readFile(lastFile.toString).split("\n").last

    assert("2400000001667289".equals(offset))

  }

  def readFile(path: String): String = {

    val fs = FileSystem.get(new Configuration())

    var br: BufferedReader = null

    var line: String = null

    val result = ArrayBuffer.empty[String]

    try {

      br = new BufferedReader(new InputStreamReader(fs.open(new Path(path))))

      line = br.readLine()

      while (line != null) {

        result += line

        line = br.readLine()

      }

    } finally {

      if (br != null) br.close()

    }

    result.mkString("\n")

  }

}

这一点在生产环境中还是有一定应用场景的，比如，通过解析mysql binlog日志，将数据同步到kafka，然后再通过消费者程序消费kafka中的数据保存到存储系统中，如delta，通过offset信息对比来校验，binlog到kafka的延迟（如，通过获取binlog中的offset信息与流程序同步到kafka时进行checkpoint的offset做对比）、kafka到存储系统中的延迟。

此外，要注意commits目录下记录的是已完成的批次信息。在实际进行offset比对时，要以此为基准再去获取offsets目录下的offsets信息。

关注微信公众号：大数据学习与分享，获取更对技术干货

如何获取流式应用程序中checkpoint的最新offset的更多相关文章

Citrix服务器虚拟化之三十 XenApp 6.5发布流式应用程序
Citrix服务器虚拟化之三十 XenApp 6.5发布流式应用程序 XenApp可发布以下类型的资源向用户提供信息访问,这 ...
翻译-In-Stream Big Data Processing 流式大数据处理
相当长一段时间以来,大数据社区已经普遍认识到了批量数据处理的不足.很多应用都对实时查询和流式处理产生了迫切需求.最近几年,在这个理念的推动下,催生出了一系列解决方案,Twitter Storm,Yah ...
流式处理的新贵 Kafka Stream - Kafka设计解析（七）
原创文章,转载请务必将下面这段话置于文章开头处. 本文转发自技术世界,原文链接 http://www.jasongj.com/kafka/kafka_stream/ Kafka Stream背景 Ka ...
流式处理新秀Flink原理与实践
随着大数据技术在各行各业的广泛应用,要求能对海量数据进行实时处理的需求越来越多,同时数据处理的业务逻辑也越来越复杂,传统的批处理方式和早期的流式处理框架也越来越难以在延迟性.吞吐量.容错能力以及使用便 ...
流式计算新贵Kafka Stream设计详解--转
原文地址:https://mp.weixin.qq.com/s?__biz=MzA5NzkxMzg1Nw==&mid=2653162822&idx=1&sn=8c4611436 ...
「Flink」理解流式处理重要概念
什么是流式处理呢? 这个问题其实我们大部分时候是没有考虑过的,大多数,我们是把流式处理和实时计算放在一起来说的.我们先来了解下,什么是数据流. 数据流(事件流) 数据流是无边界数据集的抽象我们之前接 ...
将动态库添加到VC程序中
应用程序使用DLL可以采用两种方式:一种是隐式链接,另一种是显式链接.在使用DLL之前首先要知道DLL中函数的结构信息.Visual C++6.0在VC\bin目录下提供了一个名为Dumpbin.ex ...
Apache Beam—透视Google统一流式计算的野心
Google是最早实践大数据的公司,目前大数据繁荣的生态很大一部分都要归功于Google最早的几篇论文,这几篇论文早就了以Hadoop为开端的整个开源大数据生态,但是很可惜的是Google内部的这些系 ...
Apple公司Darwin流式服务器源代码分析
当前,伴随着Internet的飞速发展,计算机网络已经进入到每一个普通人的家庭.在这个过程中,一个值得我们关注的现象是:Internet中存储和传输内容的构成已经发生了本质的改变,从传统的基于文本或少 ...

随机推荐

HTML轮播(2)
前言现在在完成轮播的框架上进行扩展更多的功能,上下切换图片,以及添加动画滚动更加平滑过渡 CSS <style> #LB { width: 100%; height: 948px; ov ...
git学习(二) git的文件状态
git的文件状态用于查看git的状态 git status 用于git文件的删除操作 git rm 如果只是 git rm --cache 仅删除暂存区里的文件: 如果不加--cache 会删除工作 ...
revel run报错 undefined: sys call.SIGUSR2"
revel run报错,报错信息为 o Compilation Error (in ..\\..\\revel\\server_adapter_go.go:135): undefined: sysca ...
R语言学习-（金融数据获取和简单的分析）
利用R语言中的quantmod包和fBasics对股票数据的获取和简要的分析, 通过获取的数据进行典型图像绘制,使用JB正态性检验来检验是否服从于正态分布. 前提概要:quantmod 包默认是访问 ...
国云数据：中国版的Snowflake，国内数据中台领导者
[股神巴菲特加持,今年最受关注美股IPO ] 这段时间, 由股神巴菲特54年来首次打新的美股IPO公司Snowflake迅速得到业界重点关注.Snowflake已于2020年9月16日正式上市,发行价 ...
【转】not found while looking for property错误
原址:http://blog.csdn.net/y3wegy/article/details/7840813 最近在研究Hibernate.过程当中碰到了很多问题啊!其中一个就是not found w ...
DM存储过程示例子-表的行数对比
1.DM存储过程示例子,表的行数对比 1 --1. ================全量 2 --select * from DM_VERI where c2 != c3; 3 --drop tabl ...
logback日志打印sql
今天整合springboot2 + mybatis + logback 遇到了在日志中sql打印不出来的坑,在网上找了好久,都不是我遇到的问题,这里吐槽一下下现在的博客质量,好多都是抄袭的,也没有标注 ...
Docker（8）- docker search 命令详解
如果你还想从头学起 Docker,可以看看这个系列的文章哦! https://www.cnblogs.com/poloyy/category/1870863.html 作用从 Docker Hub ...
关于Java中泛型、反射和注解的扫盲篇
泛型泛型概念泛型是在JDK1.5之后引入的,旨在让我们写出更加通用化,更加灵活的代码.通用化的手段在于让数据类型变得参数化,定义泛型时,对应的数据类型是不确定的,泛型方法被调用时,会指定具体类 ...

如何获取流式应用程序中checkpoint的最新offset

如何获取流式应用程序中checkpoint的最新offset的更多相关文章

随机推荐

热门专题