http://training.data-artisans.com/exercises/eventTimeJoin.html…
Event Time 本文翻译自DataStream API Docs v1.2的Event Time ------------------------------------------------------- 一.事件时间 / 处理时间 / 提取时间 Flink支持流程序不同的time概念. ·        Processing time:处理时间指执行对应Operation的设备的系统时间. 当一个流程序以处理时间运行,所有基于时间的operation(如time窗口)将使用运行对应O…
Example Program The following program is a complete, working example of streaming window word count application, that counts the words coming from a web socket in 5 second windows. public class WindowWordCount { public static void main(String[] args)…
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VML);} .shape {behavior:url(#default#VML);} 张安 张安 2 1 2016-08-02T10:56:00Z 2016-08-02T10:56:00Z 1 2945 16790 139 39 19696 16.00 false false false false…
转自:https://blogs.dropbox.com/tech/2017/09/optimizing-web-servers-for-high-throughput-and-low-latency/ This is an expanded version of my talk at NginxConf 2017 on September 6, 2017. As an SRE on the Dropbox Traffic Team, I’m responsible for our Edge n…
Flink DataStream API编程指南 Flink中的DataStream程序是对数据流实现转换的常规程序(如过滤.更新状态.定义窗口.聚合).数据流最初是由各种来源(如消息队列.套接字流.文件)创建的.结果通过汇流返回,例如可以将数据写入文件,或标准输出(例如命令行终端).Flink程序可以在各种环境下运行,独立运行,或者嵌入到其他程序中.执行可以发生在本地JVM中,也可以发生在许多机器的集群中. 为了创建你自己的Flink DataStream程序,我们鼓励你从一个Flink程序的…
之前熟悉的流处理API中的转换算子是无法访问事件的时间戳信息和水位线信息的.例如:MapFunction 这样的map转换算子就无法访问时间戳或者当前事件的时间. 然而,在一些场景下,又需要访问这些信息.基于此,DataStream API提供了一系列的 Low-Level转换算子. 这些算子支持访问时间戳.watermark 以及注册定时事件.还可以输出特定的一些事件,例如超时事件等. ProcessFunction 用来构建事件驱动的应用(支持带有事件时间的窗口操作)以及实现自定义的业务逻辑…
Savepoint 本文翻译自文档Streaming Guide / Savepoints ------------------------------------------------------------- 使用DataStream API编写的程序可以从一个savepoint处恢复执行.savepoint可以同时更新你的程序和Flink集群而不丢失任何状态.该文档包括了从触发.存储以及销毁(dispose)savepoint的所有内容.有关Flink如何处理状态和失效的详细内容,请见文…
Working with State 本文翻译自Streaming Guide/ Fault Tolerance / Working with State ---------------------------------------------------------------------------------------- Flink中所有transformation可能都看上去像是方法(在functional processing术语中),但事实上它们都是有状态的Operator.你可…
http://www.cs.berkeley.edu/~matei/papers/2013/sosp_sparrow.pdf http://www.eecs.berkeley.edu/~keo/talks/sparrow-sosp-talk.pdf    解决的问题 现有的scheduler方案, 都是基于master的, 因为schedule必须要知道所有slave的情况, 然后才能决定到底如果schedule 这个对于传统的batch系统是没有问题的, 因为Hadoop一个job可能需要几个…