生成水印

在本节中，您将了解 Flink 提供的 API，用于处理事件时间时间戳和水印。关于事件时间、处理时间和摄取时间的介绍，请参考事件时间的介绍。

水印策略介绍

为了使用事件时间，Flink需要知道事件的时间戳，这意味着流中的每个元素都需要分配其事件时间戳。这通常是通过使用TimestampAssigner从元素中的某个字段访问/提取时间戳来完成的。

时间戳分配与生成水印是同步进行的，水印告诉系统事件时间的进展。你可以通过指定一个WatermarkGenerator来配置。

Flink API期望一个WatermarkStrategy，其中包含一个TimestampAssigner和WatermarkGenerator。一些常见的策略作为WatermarkStrategy上的静态方法是开箱即用的，但用户也可以在需要时建立自己的策略。

为了完整起见，下面的是接口

public interface WatermarkStrategy<T> extends TimestampAssignerSupplier<T>, WatermarkGeneratorSupplier<T>{

    /**

     * Instantiates a {@link TimestampAssigner} for assigning timestamps according to this

     * strategy.

     */

    @Override

    TimestampAssigner<T> createTimestampAssigner(TimestampAssignerSupplier.Context context);

    /**

     * Instantiates a WatermarkGenerator that generates watermarks according to this strategy.

     */

    @Override

    WatermarkGenerator<T> createWatermarkGenerator(WatermarkGeneratorSupplier.Context context);

}

如前所述，你通常不会自己实现这个接口，而是使用WatermarkStrategy上的静态帮助方法来实现常见的水印策略，或者将自定义的TimestampAssigner与WatermarkGenerator捆绑在一起。例如，要使用有界无序水印和lambda函数作为时间戳分配器，你可以使用这个方法。

WatermarkStrategy

  .forBoundedOutOfOrderness[(Long, String)](Duration.ofSeconds(20))

  .withTimestampAssigner(new SerializableTimestampAssigner[(Long, String)] {

    override def extractTimestamp(element: (Long, String), recordTimestamp: Long): Long = element._1

  })

(在这里使用Scala Lambdas目前是行不通的，因为Scala很笨，很难支持这个。#fus)

指定一个TimestampAssigner是可选的，在大多数情况下，你其实并不想指定一个。例如，当使用Kafka或Kinesis时，你会直接从Kafka/Kinesis记录中获取时间戳。

我们将在后面的WatermarkGenerator编写中查看WatermarkGenerator接口。

注意：时间戳和水印都是在Kafka/Kinesis中获取的。时间戳和水印都被指定为自1970-01-01T00:00:00Z的Java纪元以来的毫秒。

使用水印策略

在Flink应用中，有两个地方可以使用WatermarkStrategy。1）直接在源上使用，2）在非源操作后使用。

第一个选项是比较好的，因为它允许源在水印逻辑中利用关于碎片/分区/分割的知识。源通常可以更精细地跟踪水印，源产生的整体水印也会更准确。直接在源上指定WatermarkStrategy通常意味着你必须使用源的特定接口/请参阅Watermark Strategies和Kafka Connector，以了解在Kafka Connector上如何工作，以及关于每个分区水印如何工作的更多细节。

第二个选项（在任意操作后设置WatermarkStrategy）只应在不能直接在源上设置策略时使用。

val env = StreamExecutionEnvironment.getExecutionEnvironment

val stream: DataStream[MyEvent] = env.readFile(

         myFormat, myFilePath, FileProcessingMode.PROCESS_CONTINUOUSLY, 100,

         FilePathFilter.createDefaultFilter())

val withTimestampsAndWatermarks: DataStream[MyEvent] = stream

        .filter( _.severity == WARNING )

        .assignTimestampsAndWatermarks(<watermark strategy>)

withTimestampsAndWatermarks

        .keyBy( _.getGroup )

        .window(TumblingEventTimeWindows.of(Time.seconds(10)))

        .reduce( (a, b) => a.add(b) )

        .addSink(...)

以这种方式使用WatermarkStrategy，可以获取一个流并生成一个带有时间戳元素和水印的新流。如果原始流已经有时间戳和/或水印，时间戳分配器会覆盖它们。

处理闲置数据源

如果其中一个输入分割/分区/碎片在一段时间内没有携带事件，这意味着WatermarkGenerator也没有得到任何新的信息来作为水印的基础。我们称之为空闲输入或空闲源。这是一个问题，因为有可能发生你的一些分区仍然携带事件。在这种情况下，水印将被保留下来，因为它是作为所有不同的并行水印的最小值计算的。

为了处理这个问题，你可以使用WatermarkStrategy来检测空闲，并将一个输入标记为空闲。WatermarkStrategy为此提供了一个方便的助手。

WatermarkStrategy

  .forBoundedOutOfOrderness[(Long, String)](Duration.ofSeconds(20))

  .withIdleness(Duration.ofMinutes(1))

编写水印生成器

时间戳分配器（TimestampAssigner）是一个从事件中提取字段的简单函数，因此我们不需要详细研究它们。而WatermarkGenerator的编写就比较复杂了，我们将在接下来的两节中看如何做。这就是WatermarkGenerator的界面。

/**

 * The {@code WatermarkGenerator} generates watermarks either based on events or

 * periodically (in a fixed interval).

 *

 * <p><b>Note:</b> This WatermarkGenerator subsumes the previous distinction between the

 * {@code AssignerWithPunctuatedWatermarks} and the {@code AssignerWithPeriodicWatermarks}.

 */

@Public

public interface WatermarkGenerator<T> {

    /**

     * Called for every event, allows the watermark generator to examine and remember the

     * event timestamps, or to emit a watermark based on the event itself.

     */

    void onEvent(T event, long eventTimestamp, WatermarkOutput output);

    /**

     * Called periodically, and might emit a new watermark, or not.

     *

     * <p>The interval in which this method is called and Watermarks are generated

     * depends on {@link ExecutionConfig#getAutoWatermarkInterval()}.

     */

    void onPeriodicEmit(WatermarkOutput output);

}

有两种不同风格的水印生成器：周期性和标点式。

周期性生成器通常会通过onEvent()观察传入的事件，然后在框架调用onPeriodicEmit()时发出水印。

puncutated生成器会观察onEvent()中的事件，并等待流中携带水印信息的特殊标记事件或标点。当它看到这些事件之一时，就会立即发出一个水印。通常，标点生成器不会从onPeriodicEmit()发出水印。

接下来我们将看看如何实现每种样式的生成器。

编写一个周期性的水印生成器

周期性生成器观察流事件并周期性地生成水印（可能取决于流元素，或者纯粹基于处理时间）。

生成水印的间隔（每n毫秒）通过ExecutionConfig.setAutoWatermarkInterval(...)来定义。每次都会调用生成器的onPeriodicEmit()方法，如果返回的水印是非空的，并且大于前一个水印，就会发出一个新的水印。

这里我们展示了两个使用周期性水印生成器的简单例子。请注意，Flink提供了BoundedOutfOrdernessWatermarks，这是一个WatermarkGenerator，它的工作原理与下面所示的BoundedOutfOrdernessGenerator类似。你可以在这里阅读关于如何使用它。

/**

 * This generator generates watermarks assuming that elements arrive out of order,

 * but only to a certain degree. The latest elements for a certain timestamp t will arrive

 * at most n milliseconds after the earliest elements for timestamp t.

 */

class BoundedOutOfOrdernessGenerator extends AssignerWithPeriodicWatermarks[MyEvent] {

    val maxOutOfOrderness = 3500L // 3.5 seconds

    var currentMaxTimestamp: Long = _

    override def onEvent(element: MyEvent, eventTimestamp: Long): Unit = {

        currentMaxTimestamp = max(eventTimestamp, currentMaxTimestamp)

    }

    override def onPeriodicEmit(): Unit = {

        // emit the watermark as current highest timestamp minus the out-of-orderness bound

        output.emitWatermark(new Watermark(currentMaxTimestamp - maxOutOfOrderness - 1));

    }

}

/**

 * This generator generates watermarks that are lagging behind processing time by a fixed amount.

 * It assumes that elements arrive in Flink after a bounded delay.

 */

class TimeLagWatermarkGenerator extends AssignerWithPeriodicWatermarks[MyEvent] {

    val maxTimeLag = 5000L // 5 seconds

    override def onEvent(element: MyEvent, eventTimestamp: Long): Unit = {

        // don't need to do anything because we work on processing time

    }

    override def onPeriodicEmit(): Unit = {

        output.emitWatermark(new Watermark(System.currentTimeMillis() - maxTimeLag));

    }

}

编写一个标点水印生成器

标点水印生成器将观察事件流，每当它看到一个携带水印信息的特殊元素时，就会发出一个水印。

这就是如何实现一个标点水印生成器，每当一个事件表明它携带某个标记时，它就会发射一个水印。

class PunctuatedAssigner extends AssignerWithPunctuatedWatermarks[MyEvent] {

    override def onEvent(element: MyEvent, eventTimestamp: Long): Unit = {

        if (event.hasWatermarkMarker()) {

            output.emitWatermark(new Watermark(event.getWatermarkTimestamp()))

        }

    }

    override def onPeriodicEmit(): Unit = {

        // don't need to do anything because we emit in reaction to events above

    }

}

注：可以对每个事件生成一个水印。但是，由于每个水印都会引起下游的一些计算，因此过多的水印会降低性能。

水印策略与Kafka连接器

当使用Apache Kafka作为数据源时，每个Kafka分区可能有一个简单的事件时间模式（升序时间戳或有界失序）。然而，当消耗来自Kafka的流时，多个分区经常会被并行消耗，交织来自分区的事件，并破坏每个分区的模式（这是Kafka的消费者客户端的固有工作方式）。

在这种情况下，你可以使用Flink的Kafka-partition-aware水印生成功能。使用该功能，在Kafka消费者内部，按Kafka分区生成水印，每个分区水印的合并方式与流洗牌的水印合并方式相同。

例如，如果每个Kafka分区的事件时间戳是严格的升序，那么用升序时间戳水印生成器生成每个分区的水印，会得到完美的整体水印。请注意，我们在示例中并没有提供TimestampAssigner，而是使用Kafka记录本身的时间戳。

下面的插图展示了如何使用per-Kafka-partition水印生成器，以及在这种情况下水印如何通过流式数据流传播。

val kafkaSource = new FlinkKafkaConsumer[MyType]("myTopic", schema, props)

kafkaSource.assignTimestampsAndWatermarks(

  WatermarkStrategy

    .forBoundedOutOfOrderness(Duration.ofSeconds(20)))

val stream: DataStream[MyType] = env.addSource(kafkaSource)

操作符如何处理水印

作为一般规则，操作者在向下游转发一个给定的水印之前，需要对其进行完全处理。例如，WindowOperator将首先评估所有应该被发射的窗口，只有在产生所有由水印触发的输出后，水印本身才会被发送到下游。换句话说，所有因发生水印而产生的元素将在水印之前被发射。

同样的规则也适用于TwoInputStreamOperator。然而，在这种情况下，运算器的当前水印被定义为其两个输入的最小值。

这种行为的细节由OneInputStreamOperator#processWatermark、TwoInputStreamOperator#processWatermark1和TwoInputStreamOperator#processWatermark2方法的实现来定义。

废弃的AssignerWithPeriodicWatermarks和AssignerWithPunctuatedWatermarks

在引入当前的WatermarkStrategy、TimestampAssigner和WatermarkGenerator抽象之前，Flink使用了AssignerWithPeriodicWatermarks和AssignerWithPunctuatedWatermarks。你仍然会在API中看到它们，但建议使用新的接口，因为它们提供了更清晰的分离关注点，而且还统一了水印生成的周期和标点样式。

Flink-v1.12官方网站翻译-P019-Generating Watermarks的更多相关文章

Flink-v1.12官方网站翻译-P020-Builtin Watermark Generators
内置水印生成器正如在Generating Watermarks一文中所描述的,Flink提供了抽象,允许程序员分配自己的时间戳和发射自己的水印.更具体地说,可以通过实现WatermarkGenera ...
Flink-v1.12官方网站翻译-P018-Event Time
事件时间在本节中,您将学习如何编写时间感知的Flink程序.请看一下及时流处理,了解及时流处理背后的概念. 关于如何在Flink程序中使用时间的信息请参考windowing和ProcessFunct ...
Flink-v1.12官方网站翻译-P005-Learn Flink: Hands-on Training
学习Flink:实践培训本次培训的目标和范围本培训介绍了Apache Flink,包括足够的内容让你开始编写可扩展的流式ETL,分析和事件驱动的应用程序,同时省略了很多(最终重要的)细节.本书的重 ...
Flink-v1.12官方网站翻译-P025-Queryable State Beta
可查询的状态注意:可查询状态的客户端API目前处于不断发展的状态,对所提供接口的稳定性不做保证.在即将到来的Flink版本中,客户端的API很可能会有突破性的变化. 简而言之,该功能将Flink的托 ...
Flink-v1.12官方网站翻译-P002-Fraud Detection with the DataStream API
使用DataStream API进行欺诈检测 Apache Flink提供了一个DataStream API,用于构建强大的.有状态的流式应用.它提供了对状态和时间的精细控制,这使得高级事件驱动系统的 ...
Flink-v1.12官方网站翻译-P015-Glossary
术语表 Flink Application Cluster Flink应用集群是一个专用的Flink集群,它只执行一个Flink应用的Flink作业.Flink集群的寿命与Flink应用的寿命绑定. ...
Flink-v1.12官方网站翻译-P008-Streaming Analytics
流式分析事件时间和水印介绍 Flink明确支持三种不同的时间概念. 事件时间:事件发生的时间,由产生(或存储)该事件的设备记录的时间摄取时间:Flink在摄取事件时记录的时间戳. 处理时间:您的 ...
Flink-v1.12官方网站翻译-P004-Flink Operations Playground
Flink操作训练场在各种环境中部署和操作Apache Flink的方法有很多.无论这种多样性如何,Flink集群的基本构件保持不变,类似的操作原则也适用. 在这个操场上,你将学习如何管理和运行Fl ...
Flink-v1.12官方网站翻译-P001-Local Installation
本地安装按照以下几个步骤下载最新的稳定版本并开始使用. 第一步:下载为了能够运行Flink,唯一的要求是安装了一个有效的Java 8或11.你可以通过以下命令检查Java的正确安装. java - ...
Flink-v1.12官方网站翻译-P029-User-Defined Functions
用户自定义函数大多数操作都需要用户定义的函数.本节列出了如何指定这些函数的不同方法.我们还涵盖了累加器,它可以用来深入了解您的Flink应用. Lambda函数在前面的例子中已经看到,所有的操作都 ...

随机推荐

Java中定时器Timer致命缺点（附学习方法）
简介这篇文章我一直在纠结到底要不要写,不想写一来因为定时器用法比较简单,二来是面试中也不常问.后来还是决定写了主要是想把自己分析问题思路分享给大家,让大家在学习过程中能够参考,学习态度我相信大部分人 ...
STL小结
$\mathcal{STL}(\mathcal{Standard\ Template\ Library})$ $queue$ (队列): 这是一种先进先出的数据结构. 主要操作: 操作功能 ...
M43 第一阶段考试
一.解答题 1.统计当前主机的TCP协议网络各种连接状态出现的次数 netstat -an | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a ...
LeetCode876 链表的中间结点
给定一个带有头结点 head 的非空单链表,返回链表的中间结点. 如果有两个中间结点,则返回第二个中间结点. 示例 1: 输入:[1,2,3,4,5] 输出:此列表中的结点 3 (序列化形式:[3,4 ...
【Java】Java注释 - 单行、块、文档注释
简单记录,Java 核心技术卷I 基础知识(原书第10 版) 注释我们在编写程序时,经常需要添加一些注释,用来描述某段代码的作用,提高Java源程序代码的可读性,使得Java程序条理清晰. 写代码的 ...
Apache目录详解
Apache的主要目录和配置文件理解参考链接:http://httpd.apache.org/docs/2.4/misc/security_tips.html 一.Apache主要配置文件注释(演示 ...
ORA-00054: 資源正被使用中, 請設定 NOWAIT 來取得它, 否則逾時到期
1.查看被使用资源的OBJECT_ID SELECT *FROM DBA_OBJECTS WHERE OBJECT_NAME='OBJECT_NAME' 2.查看资源被谁占用SELECT * FROM ...
Eclipse中的可视化图形界面设计插件windowbuilder
对于eclipse平台上的可视化开发工具插件,有windowbuilder.visual editor等,今天就对windowbuilder说明: WindowBuilder功能特性等介绍,参考如下网 ...
Kubernetes调整Node节点快速驱逐pod的时间
在高可用的k8s集群中,当Node节点挂掉,kubelet无法提供工作的时候,pod将会自动调度到其他的节点上去,而调度到节点上的时间需要我们慎重考量,因为它决定了生产的稳定性.可靠性,更快的迁移可以 ...
前端面试之CSS权重问题!
前端面试之CSS权重问题! 下面的权重按照从小到大来排列! 1.通用选择器(*) 2.元素(类型)选择器权重1 3.类选择器权重10 4.属性选择器 5.伪类 6.ID 选择器权重100 7.内 ...

Flink-v1.12官方网站翻译-P019-Generating Watermarks