时间戳和Watermark生成

本文翻译自Generating Timestamp / Watermarks

------------------------------------------------------------------

本文是Flink在使用事件时间(Event Time)时相关内容,有关事件时间、处理时间和提取时间的介绍,请见event time introduction

流程序需要设置时间特征为Event time,才能在程序中使用事件时间。

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

一、时间戳赋值

为了使事件时间可以正常使用,Flink需要知道时间的时间戳,即流中的每个element都需要被赋予它自己的时间戳。Flink通常会从element的一些域访问/提取时间戳(That happens usually by
accessing/extracting the timestamp from some field in the element.)。

时间戳的赋值通常与Watermark的生成紧密相关,其中Watermark生成负责通知系统事件时间的增长情况。

时间戳赋值和Watermark生成的方式有两种:

1.    直接在数据流源处进行

2.    通过一个Timestamp
assigner / watermark generator:在Flink中,Timestamp assigner同样会定义watermark的发送行为

注意:时间戳和Watermark都是使用从Java历元(epoch)
“1970-01-01 T00.00.00Z”开始的毫秒数定义的

1.1 带有时间戳和Watermark的Source方法

流的源可以在它们生产的element中直接赋值时间戳以及发送Watermark。在此情况下,我们不需要Timestamp
Assigner。

要在Source方法中向element直接赋值时间戳,Source方法必须在SourceContext上调用方法collectWithTimestamp(…)。要在Source中生成Watermark,Source必须调用emitWatermark(Watermark)方法。

在下例的(非检查点的)Source方法中,方法直接向element赋值时间戳,并且根据特殊事件生成Watermark:

@Override
public void run(SourceContext<MyType>
ctx) throws Exception {
  while (/*
condition */
) {
    MyType
next = getNext();
     ctx.collectWithTimestamp(next,
next.getEventTimestamp());

    if
(
next.hasWatermarkTime())
{

      ctx.emitWatermark(new
Watermark(next.getWatermarkTime()));
    }
  }
}

注意:如果流程序在已经拥有时间戳的流上继续使用TimestampAssigner,流中element的原有时间戳将被TimestampAssigner重写。类似地,Watermark也会同样被重写。

1.2 Timestamp Assigner / Watermark Generators

Timestamp
Assigner接收一个流并且产生一个带有时间戳赋值element和Watermark的新的流。如果原有的流已经拥有了时间戳或Watermark,则Timestamp
Assigner将会重写它们。

通常在紧接着数据源之后会定义Timestamp
Assigner,但这并不是严格要求的。例如在通用的模式中,会在Timestamp
Assigner之前进行parse(MapFunction)和filter(FilterFunction)操作。不论在什么情况下,Timestamp
Assigner都需要在第一个使用事件时间的Operation(如第一个窗口Operation)之前定义。而在流Job中使用Kafka作为数据源是一个特殊情况,Flink允许在数据源(或数据消费者consumer)内部定义Timestamp
Assigner和Watermark
emitter,更多相关信息请见Kafka Connector
documentation

注意:本节余下内容呈现了一个开发者创建自己的Timestamp
Assigner 和 watermark
emitter所需要实现的主要接口。有关Flink自带的预先实现的extractor,请见Pre-defined Timestamp
Extractors / Watermark Emitters

final
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

DataStream<MyEvent>
stream = env.readFile(
  myFormat, myFilePath, FileProcessingMode.PROCESS_CONTINUOUSLY,
100,
  FilePathFilter.createDefaultFilter(),
typeInfo);

DataStream<MyEvent>
withTimestampsAndWatermarks = stream
  .filter(
event -> event.severity()
==
WARNING )
  .assignTimestampsAndWatermarks(new
MyTimestampsAndWatermarks());

withTimestampsAndWatermarks
  .keyBy( (event)
->
event.getGroup()
)

  .timeWindow(Time.seconds(10))
  .reduce( (a,
b) -> a.add(b)
)

  .addSink(...);

周期性Watermark

AssignerWithPeriodicWatermark赋值时间戳并周期性生成(生成方式有可能是依靠流的element,或者纯粹基于处理时间)。

生成Watermark的时间周期区间(每n毫秒)的大小可以通过ExecutionConfig.setAutoWatermarkInterval(…)设置。每一次生成时,都将会调用Assigner的getCurrentWatermark()方法,如果返回的Watermark是非null且大于前一个Watermark,则会发送一个新的Watermark。

下面是两个生成周期性Watermark和Timestamp
Assigner的例子

/**
* This generator generates watermarks assuming that elements
come out of order to a certain degree only.

* The latest elements for a certain timestamp t will arrive at
most n milliseconds after the earliest

* elements for timestamp t.
*/
public class BoundedOutOfOrdernessGenerator extends
AssignerWithPeriodicWatermarks<MyEvent> {

private
final
long maxOutOfOrderness = 3500;
// 3.5 seconds

private
long currentMaxTimestamp;

@Override
public long extractTimestamp(MyEvent
element, long previousElementTimestamp)
{

  long timestamp = element.getCreationTime();
  currentMaxTimestamp = Math.max(timestamp,
currentMaxTimestamp);
  return timestamp;
}

@Override
public Watermark getCurrentWatermark()
{

  // return the watermark as current highest timestamp minus the
out-of-orderness bound

  return new Watermark(currentMaxTimestamp
- maxOutOfOrderness);
}

}

/**
* This generator generates watermarks that are lagging behind
processing time by a certain amount.

* It assumes that elements arrive in Flink after at most a
certain time.

*/
public class TimeLagWatermarkGenerator extends
AssignerWithPeriodicWatermarks<MyEvent> {

private
final
long maxTimeLag = 5000;
// 5 seconds

@Override
public long extractTimestamp(MyEvent
element, long
previousElementTimestamp) {
        return element.getCreationTime();
}

@Override
public Watermark getCurrentWatermark()
{

        //
return the watermark as current time minus the maximum time lag

        return new Watermark(System.currentTimeMillis()
-
maxTimeLag);
}

}

带标点(punctuated)Watermark

为了在某事件下就产生Watermark,我们需要使用AssignerWithPunctuatedWatermarks。在该类中,Flink会先调用extractTimestamp(…)方法来给element赋值一个时间戳,然后针对该element即刻调用checkAndGetNextWatermark(…)方法来返回一个非null的Watermark。

checkAndGetNextWatermark(…)方法将获得在extractTimestamp(…)方法中获得的时间戳,并决定是否生成Watermark。一旦checkAndGetNextWatermark(…)方法返回一个非null的Watermark,并且该Watermark大于最近的上一个Watermark,则发送该新的Watermark。

public
class
PunctuatedAssigner extends
AssignerWithPunctuatedWatermarks<MyEvent> {

@Override
public long extractTimestamp(MyEvent
element, long
previousElementTimestamp) {
        return element.getCreationTime();
}

@Override
public Watermark checkAndGetNextWatermark(MyEvent
lastElement, long
extractedTimestamp) {
        return element.hasWatermarkMarker()
? new
Watermark(extractedTimestamp)
: null;

}

}

注意:在每个事件上都生成一个Watermark是可能存在的,但是由于每个Watermark都会导致下游的计算开销,过多的Watermark会降低程序的性能

Flink Program Guide (4) -- 时间戳和Watermark生成(DataStream API编程指导 -- For Java)的更多相关文章

  1. Flink Program Guide (2) -- 综述 (DataStream API编程指导 -- For Java)

    v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VM ...

  2. Flink Program Guide (10) -- Savepoints (DataStream API编程指导 -- For Java)

    Savepoint 本文翻译自文档Streaming Guide / Savepoints ------------------------------------------------------ ...

  3. Flink Program Guide (6) -- 窗口 (DataStream API编程指导 -- For Java)

    窗口(Window) 本文翻译自文档Windows ----------------------------------- Flink使用窗口的概念,根据element的时间戳或者其他指标,将可能无限 ...

  4. Flink Program Guide (5) -- 预定义的Timestamp Extractor / Watermark Emitter (DataStream API编程指导 -- For Java)

    本文翻译自Pre-defined Timestamp Extractors / Watermark Emitter ------------------------------------------ ...

  5. Flink Program Guide (3) -- Event Time (DataStream API编程指导 -- For Java)

    Event Time 本文翻译自DataStream API Docs v1.2的Event Time ------------------------------------------------ ...

  6. Flink Program Guide (8) -- Working with State :Fault Tolerance(DataStream API编程指导 -- For Java)

    Working with State 本文翻译自Streaming Guide/ Fault Tolerance / Working with State ---------------------- ...

  7. Flink Program Guide (7) -- 容错 Fault Tolerance(DataStream API编程指导 -- For Java)

    false false false false EN-US ZH-CN X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-n ...

  8. Flink Program Guide (1) -- 基本API概念(Basic API Concepts -- For Java)

    false false false false EN-US ZH-CN X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-n ...

  9. Flink Program Guide (9) -- StateBackend : Fault Tolerance(Basic API Concepts -- For Java)

    State Backends 本文翻译自文档Streaming Guide / Fault Tolerance / StateBackend ----------------------------- ...

随机推荐

  1. canvas入门

    <html> <head> <script> window.onload=function(){ var canvas=document.getElementByI ...

  2. URL & webkitURL

    base64带来的坑 在web中想要是实现图片在线预览的方式有几种 1.先上传 2.使用FileReader对象 3.URL.createObjectURL(file|blob) base64 能将图 ...

  3. $(document).ready()与window.onload的区别(转发)

    1.执行时间window.onload必须等到页面内包括图片的所有元素加载完毕后才能执行.$(document).ready()是DOM结构绘制完毕后就执行,不必等到加载完毕.2.编写个数不同wind ...

  4. linux学习笔记之套接字

    一.基础知识. 1:套接字基础. 1,是通信端点的抽象. 2,在UNIX类系统中被当作是一种文件描述符. 3,套接字通信域. 域 描述 AF_INET IPV4因特网域 AF_INET6 IPV6因特 ...

  5. CDZSC_2015寒假新人(1)——基础 a

    Description Contest time again! How excited it is to see balloons floating around. But to tell you a ...

  6. Java之定时任务详解

    在我们编程过程中如果需要执行一些简单的定时任务,无须做复杂的控制,我们可以考虑使用JDK中的Timer定时任务来实现.下面就其原理.实例以及Timer缺陷三个方面来解析java Timer定时器. 在 ...

  7. http://www.cnblogs.com/stephen-liu74/archive/2012/08/01/2561557.html

    http://www.cnblogs.com/stephen-liu74/archive/2012/08/01/2561557.html

  8. Java Web 中 过滤器与拦截器的区别

    过滤器,是在java web中,你传入的request,response提前过滤掉一些信息,或者提前设置一些参数,然后再传入servlet或者struts的 action进行业务逻辑,比如过滤掉非法u ...

  9. [置顶] mkdir函数-linux

    tyle="margin:20px 0px 0px; font-size:14px; line-height:26px; font-family:Arial">

  10. 解决WEB页面上"焦点控制"一法

    解决WEB页面上"焦点控制"一法 分类: Html/Css2011-11-11 17:28 125人阅读 评论(0) 收藏 举报 webjavascriptasp.netbutto ...