Flink-v1.12官方网站翻译-P019-Generating Watermarks
生成水印
在本节中,您将了解 Flink 提供的 API,用于处理事件时间时间戳和水印。关于事件时间、处理时间和摄取时间的介绍,请参考事件时间的介绍。
水印策略介绍
为了使用事件时间,Flink需要知道事件的时间戳,这意味着流中的每个元素都需要分配其事件时间戳。这通常是通过使用TimestampAssigner从元素中的某个字段访问/提取时间戳来完成的。
时间戳分配与生成水印是同步进行的,水印告诉系统事件时间的进展。你可以通过指定一个WatermarkGenerator来配置。
Flink API期望一个WatermarkStrategy,其中包含一个TimestampAssigner和WatermarkGenerator。一些常见的策略作为WatermarkStrategy上的静态方法是开箱即用的,但用户也可以在需要时建立自己的策略。
为了完整起见,下面的是接口
public interface WatermarkStrategy<T> extends TimestampAssignerSupplier<T>, WatermarkGeneratorSupplier<T>{ /**
* Instantiates a {@link TimestampAssigner} for assigning timestamps according to this
* strategy.
*/
@Override
TimestampAssigner<T> createTimestampAssigner(TimestampAssignerSupplier.Context context); /**
* Instantiates a WatermarkGenerator that generates watermarks according to this strategy.
*/
@Override
WatermarkGenerator<T> createWatermarkGenerator(WatermarkGeneratorSupplier.Context context);
}
如前所述,你通常不会自己实现这个接口,而是使用WatermarkStrategy上的静态帮助方法来实现常见的水印策略,或者将自定义的TimestampAssigner与WatermarkGenerator捆绑在一起。例如,要使用有界无序水印和lambda函数作为时间戳分配器,你可以使用这个方法。
WatermarkStrategy
.forBoundedOutOfOrderness[(Long, String)](Duration.ofSeconds(20))
.withTimestampAssigner(new SerializableTimestampAssigner[(Long, String)] {
override def extractTimestamp(element: (Long, String), recordTimestamp: Long): Long = element._1
})
(在这里使用Scala Lambdas目前是行不通的,因为Scala很笨,很难支持这个。#fus)
指定一个TimestampAssigner是可选的,在大多数情况下,你其实并不想指定一个。例如,当使用Kafka或Kinesis时,你会直接从Kafka/Kinesis记录中获取时间戳。
我们将在后面的WatermarkGenerator编写中查看WatermarkGenerator接口。
注意:时间戳和水印都是在Kafka/Kinesis中获取的。时间戳和水印都被指定为自1970-01-01T00:00:00Z的Java纪元以来的毫秒。
使用水印策略
在Flink应用中,有两个地方可以使用WatermarkStrategy。1)直接在源上使用,2)在非源操作后使用。
第一个选项是比较好的,因为它允许源在水印逻辑中利用关于碎片/分区/分割的知识。源通常可以更精细地跟踪水印,源产生的整体水印也会更准确。直接在源上指定WatermarkStrategy通常意味着你必须使用源的特定接口/请参阅Watermark Strategies和Kafka Connector,以了解在Kafka Connector上如何工作,以及关于每个分区水印如何工作的更多细节。
第二个选项(在任意操作后设置WatermarkStrategy)只应在不能直接在源上设置策略时使用。
val env = StreamExecutionEnvironment.getExecutionEnvironment val stream: DataStream[MyEvent] = env.readFile(
myFormat, myFilePath, FileProcessingMode.PROCESS_CONTINUOUSLY, 100,
FilePathFilter.createDefaultFilter()) val withTimestampsAndWatermarks: DataStream[MyEvent] = stream
.filter( _.severity == WARNING )
.assignTimestampsAndWatermarks(<watermark strategy>) withTimestampsAndWatermarks
.keyBy( _.getGroup )
.window(TumblingEventTimeWindows.of(Time.seconds(10)))
.reduce( (a, b) => a.add(b) )
.addSink(...)
以这种方式使用WatermarkStrategy,可以获取一个流并生成一个带有时间戳元素和水印的新流。如果原始流已经有时间戳和/或水印,时间戳分配器会覆盖它们。
处理闲置数据源
如果其中一个输入分割/分区/碎片在一段时间内没有携带事件,这意味着WatermarkGenerator也没有得到任何新的信息来作为水印的基础。我们称之为空闲输入或空闲源。这是一个问题,因为有可能发生你的一些分区仍然携带事件。在这种情况下,水印将被保留下来,因为它是作为所有不同的并行水印的最小值计算的。
为了处理这个问题,你可以使用WatermarkStrategy来检测空闲,并将一个输入标记为空闲。WatermarkStrategy为此提供了一个方便的助手。
WatermarkStrategy
.forBoundedOutOfOrderness[(Long, String)](Duration.ofSeconds(20))
.withIdleness(Duration.ofMinutes(1))
编写水印生成器
时间戳分配器(TimestampAssigner)是一个从事件中提取字段的简单函数,因此我们不需要详细研究它们。而WatermarkGenerator的编写就比较复杂了,我们将在接下来的两节中看如何做。这就是WatermarkGenerator的界面。
/**
* The {@code WatermarkGenerator} generates watermarks either based on events or
* periodically (in a fixed interval).
*
* <p><b>Note:</b> This WatermarkGenerator subsumes the previous distinction between the
* {@code AssignerWithPunctuatedWatermarks} and the {@code AssignerWithPeriodicWatermarks}.
*/
@Public
public interface WatermarkGenerator<T> { /**
* Called for every event, allows the watermark generator to examine and remember the
* event timestamps, or to emit a watermark based on the event itself.
*/
void onEvent(T event, long eventTimestamp, WatermarkOutput output); /**
* Called periodically, and might emit a new watermark, or not.
*
* <p>The interval in which this method is called and Watermarks are generated
* depends on {@link ExecutionConfig#getAutoWatermarkInterval()}.
*/
void onPeriodicEmit(WatermarkOutput output);
}
有两种不同风格的水印生成器:周期性和标点式。
周期性生成器通常会通过onEvent()观察传入的事件,然后在框架调用onPeriodicEmit()时发出水印。
puncutated生成器会观察onEvent()中的事件,并等待流中携带水印信息的特殊标记事件或标点。当它看到这些事件之一时,就会立即发出一个水印。通常,标点生成器不会从onPeriodicEmit()发出水印。
接下来我们将看看如何实现每种样式的生成器。
编写一个周期性的水印生成器
周期性生成器观察流事件并周期性地生成水印(可能取决于流元素,或者纯粹基于处理时间)。
生成水印的间隔(每n毫秒)通过ExecutionConfig.setAutoWatermarkInterval(...)来定义。每次都会调用生成器的onPeriodicEmit()方法,如果返回的水印是非空的,并且大于前一个水印,就会发出一个新的水印。
这里我们展示了两个使用周期性水印生成器的简单例子。请注意,Flink提供了BoundedOutfOrdernessWatermarks,这是一个WatermarkGenerator,它的工作原理与下面所示的BoundedOutfOrdernessGenerator类似。你可以在这里阅读关于如何使用它。
/**
* This generator generates watermarks assuming that elements arrive out of order,
* but only to a certain degree. The latest elements for a certain timestamp t will arrive
* at most n milliseconds after the earliest elements for timestamp t.
*/
class BoundedOutOfOrdernessGenerator extends AssignerWithPeriodicWatermarks[MyEvent] { val maxOutOfOrderness = 3500L // 3.5 seconds var currentMaxTimestamp: Long = _ override def onEvent(element: MyEvent, eventTimestamp: Long): Unit = {
currentMaxTimestamp = max(eventTimestamp, currentMaxTimestamp)
} override def onPeriodicEmit(): Unit = {
// emit the watermark as current highest timestamp minus the out-of-orderness bound
output.emitWatermark(new Watermark(currentMaxTimestamp - maxOutOfOrderness - 1));
}
} /**
* This generator generates watermarks that are lagging behind processing time by a fixed amount.
* It assumes that elements arrive in Flink after a bounded delay.
*/
class TimeLagWatermarkGenerator extends AssignerWithPeriodicWatermarks[MyEvent] { val maxTimeLag = 5000L // 5 seconds override def onEvent(element: MyEvent, eventTimestamp: Long): Unit = {
// don't need to do anything because we work on processing time
} override def onPeriodicEmit(): Unit = {
output.emitWatermark(new Watermark(System.currentTimeMillis() - maxTimeLag));
}
}
编写一个标点水印生成器
标点水印生成器将观察事件流,每当它看到一个携带水印信息的特殊元素时,就会发出一个水印。
这就是如何实现一个标点水印生成器,每当一个事件表明它携带某个标记时,它就会发射一个水印。
class PunctuatedAssigner extends AssignerWithPunctuatedWatermarks[MyEvent] { override def onEvent(element: MyEvent, eventTimestamp: Long): Unit = {
if (event.hasWatermarkMarker()) {
output.emitWatermark(new Watermark(event.getWatermarkTimestamp()))
}
} override def onPeriodicEmit(): Unit = {
// don't need to do anything because we emit in reaction to events above
}
}
注:可以对每个事件生成一个水印。但是,由于每个水印都会引起下游的一些计算,因此过多的水印会降低性能。
水印策略与Kafka连接器
当使用Apache Kafka作为数据源时,每个Kafka分区可能有一个简单的事件时间模式(升序时间戳或有界失序)。然而,当消耗来自Kafka的流时,多个分区经常会被并行消耗,交织来自分区的事件,并破坏每个分区的模式(这是Kafka的消费者客户端的固有工作方式)。
在这种情况下,你可以使用Flink的Kafka-partition-aware水印生成功能。使用该功能,在Kafka消费者内部,按Kafka分区生成水印,每个分区水印的合并方式与流洗牌的水印合并方式相同。
例如,如果每个Kafka分区的事件时间戳是严格的升序,那么用升序时间戳水印生成器生成每个分区的水印,会得到完美的整体水印。请注意,我们在示例中并没有提供TimestampAssigner,而是使用Kafka记录本身的时间戳。
下面的插图展示了如何使用per-Kafka-partition水印生成器,以及在这种情况下水印如何通过流式数据流传播。
val kafkaSource = new FlinkKafkaConsumer[MyType]("myTopic", schema, props)
kafkaSource.assignTimestampsAndWatermarks(
WatermarkStrategy
.forBoundedOutOfOrderness(Duration.ofSeconds(20))) val stream: DataStream[MyType] = env.addSource(kafkaSource)
操作符如何处理水印
作为一般规则,操作者在向下游转发一个给定的水印之前,需要对其进行完全处理。例如,WindowOperator将首先评估所有应该被发射的窗口,只有在产生所有由水印触发的输出后,水印本身才会被发送到下游。换句话说,所有因发生水印而产生的元素将在水印之前被发射。
同样的规则也适用于TwoInputStreamOperator。然而,在这种情况下,运算器的当前水印被定义为其两个输入的最小值。
这种行为的细节由OneInputStreamOperator#processWatermark、TwoInputStreamOperator#processWatermark1和TwoInputStreamOperator#processWatermark2方法的实现来定义。
废弃的AssignerWithPeriodicWatermarks和AssignerWithPunctuatedWatermarks
在引入当前的WatermarkStrategy、TimestampAssigner和WatermarkGenerator抽象之前,Flink使用了AssignerWithPeriodicWatermarks和AssignerWithPunctuatedWatermarks。你仍然会在API中看到它们,但建议使用新的接口,因为它们提供了更清晰的分离关注点,而且还统一了水印生成的周期和标点样式。
Flink-v1.12官方网站翻译-P019-Generating Watermarks的更多相关文章
- Flink-v1.12官方网站翻译-P020-Builtin Watermark Generators
内置水印生成器 正如在Generating Watermarks一文中所描述的,Flink提供了抽象,允许程序员分配自己的时间戳和发射自己的水印.更具体地说,可以通过实现WatermarkGenera ...
- Flink-v1.12官方网站翻译-P018-Event Time
事件时间 在本节中,您将学习如何编写时间感知的Flink程序.请看一下及时流处理,了解及时流处理背后的概念. 关于如何在Flink程序中使用时间的信息请参考windowing和ProcessFunct ...
- Flink-v1.12官方网站翻译-P005-Learn Flink: Hands-on Training
学习Flink:实践培训 本次培训的目标和范围 本培训介绍了Apache Flink,包括足够的内容让你开始编写可扩展的流式ETL,分析和事件驱动的应用程序,同时省略了很多(最终重要的)细节.本书的重 ...
- Flink-v1.12官方网站翻译-P025-Queryable State Beta
可查询的状态 注意:可查询状态的客户端API目前处于不断发展的状态,对所提供接口的稳定性不做保证.在即将到来的Flink版本中,客户端的API很可能会有突破性的变化. 简而言之,该功能将Flink的托 ...
- Flink-v1.12官方网站翻译-P002-Fraud Detection with the DataStream API
使用DataStream API进行欺诈检测 Apache Flink提供了一个DataStream API,用于构建强大的.有状态的流式应用.它提供了对状态和时间的精细控制,这使得高级事件驱动系统的 ...
- Flink-v1.12官方网站翻译-P015-Glossary
术语表 Flink Application Cluster Flink应用集群是一个专用的Flink集群,它只执行一个Flink应用的Flink作业.Flink集群的寿命与Flink应用的寿命绑定. ...
- Flink-v1.12官方网站翻译-P008-Streaming Analytics
流式分析 事件时间和水印 介绍 Flink明确支持三种不同的时间概念. 事件时间:事件发生的时间,由产生(或存储)该事件的设备记录的时间 摄取时间:Flink在摄取事件时记录的时间戳. 处理时间:您的 ...
- Flink-v1.12官方网站翻译-P004-Flink Operations Playground
Flink操作训练场 在各种环境中部署和操作Apache Flink的方法有很多.无论这种多样性如何,Flink集群的基本构件保持不变,类似的操作原则也适用. 在这个操场上,你将学习如何管理和运行Fl ...
- Flink-v1.12官方网站翻译-P001-Local Installation
本地安装 按照以下几个步骤下载最新的稳定版本并开始使用. 第一步:下载 为了能够运行Flink,唯一的要求是安装了一个有效的Java 8或11.你可以通过以下命令检查Java的正确安装. java - ...
- Flink-v1.12官方网站翻译-P029-User-Defined Functions
用户自定义函数 大多数操作都需要用户定义的函数.本节列出了如何指定这些函数的不同方法.我们还涵盖了累加器,它可以用来深入了解您的Flink应用. Lambda函数 在前面的例子中已经看到,所有的操作都 ...
随机推荐
- spark:reducebykey与groupbykey的区别
从源码看: reduceBykey与groupbykey: 都调用函数combineByKeyWithClassTag[V]((v: V) => v, func, func, partition ...
- LAMP架构之PHP-FPM 服务器 转
安装PHP 解决依赖关系 # 请配置好yum源(系统安装源及epel源)后执行如下命令: yum -y groupinstall "Desktop Platform Development& ...
- 基于 MapReduce 的单词计数(Word Count)的实现
完整代码: // 导入必要的包 import java.io.IOException; import java.util.StringTokenizer; import org.apache.hado ...
- Nginx基础知识学习(安装/进程模型/事件处理机制/详细配置/定时切割日志)
一.Linux下Nginx的安装 1.去官网 http://nginx.org/download/下载对应的Nginx安装包,推荐使用稳定版本. 2.上传Nginx到Linux服务器. 3.安装依赖环 ...
- 【Spring】Spring的事务管理 - 2、声明式事务管理(实现基于XML、Annotation的方式。)
声明式事务管理 文章目录 声明式事务管理 基于XML方式的声明式事务 基于Annotation方式的声明式事务 简单记录 - 简单记录-Java EE企业级应用开发教程(Spring+Spring M ...
- 计算起始车站车费问题-JavaScript数组对象写法
计算起始站车费 题目:深圳--60--广州--50-虎门--40- -中山--36-珠海一34-澳门一89一香港以上车票费用计算,如坐车深圳到广州60元,广州到虎门50元,深圳到虎门就是60+50-1 ...
- XSS - Pikachu
概述: Cross-Site Scripting 简称为"CSS",为避免与前端叠成样式表的缩写"CSS"冲突,故又称XSS.一般XSS可以分为如下几种常见类型 ...
- 实现简易版德州扑克|学习麻瓜编程以项目为导向入门前端 HTML+CSS+JS
实现简易版德州扑克 1.先上达到网页效果图(简易版德州扑克) 网页分为发牌区和牌池,上面为发牌区,下面是牌池区 2. 代码实现 2.1 HTML和JS代码 ` <link rel="s ...
- 阿里云RDS物理备份恢复到本地
一:业务场景 验证阿里云备份文件可用性 二:恢复到本地过程中遇到的问题 1.修改密码报错 2.自定义函数不可用 三:恢复步骤 1.xtrabackup安装使用 请参考:https://www.cnbl ...
- CMU数据库(15-445)-实验2-B+树索引实现(中)删除
3. Delete 实现 附上实验2的第一部分 https://www.cnblogs.com/JayL-zxl/p/14324297.html 3. 1 删除算法原理 如果叶子结点中没有相应的key ...