flink 自定义触发器 定时或达到数量触发
flink 触发器
触发器确定窗口(由窗口分配程序形成)何时准备由窗口函数处理。每个WindowAssigner都带有一个默认触发器。
如果默认触发器不适合需求,我们就需要自定义触发器。
主要方法
触发器接口有五种方法,允许触发器对不同的事件作出反应
onElement()
添加到每个窗口的元素都会调用此方法。onEventTime()
当注册的事件时间计时器触发时,将调用此方法。onProcessingTime()
当注册的处理时间计时器触发时,将调用此方法。onMerge()
与有状态触发器相关,并在两个触发器对应的窗口合并时合并它们的状态,例如在使用会话窗口时。(目前没使用过,了解不多)clear()
执行删除相应窗口时所需的任何操作。(一般是删除定义的状态、定时器等)
TriggerResult
onElement(),onEventTime(),onProcessingTime()
都要求返回一个TriggerResult
TriggerResult包含以下内容
- CONTINUE:表示啥都不做。
- FIRE:表示触发计算,同时保留窗口中的数据
- PURGE:简单地删除窗口的内容,并保留关于窗口和任何触发器状态的任何潜在元信息。
- FIRE_AND_PURGE:触发计算,然后清除窗口中的元素。(默认情况下,预先实现的触发器只触发而不清除窗口状态。)
案例
- 需求
- 当窗口中的数据量达到一定数量的时候触发计算
- 根据执行时间每隔一定时间且窗口中有数据触发计算,如果没有数据不触发计算
- 窗口关闭的时候清除数据
实现过程
- 依赖
<properties>
<hadoop.version>3.1.1.3.1.0.0-78</hadoop.version>
<flink.version>1.9.1</flink.version>
<scala.binary.version>2.11</scala.binary.version>
<scala.version>2.11.7</scala.version>
</properties>
<dependencies>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>${scala.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-scala_${scala.binary.version}</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-streaming-scala_${scala.binary.version}</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-core</artifactId>
<version>${flink.version}</version>
</dependency>
</dependencies>
- 实现代码
//调用
dStream
.keyBy(_.event_id)
.window(TumblingEventTimeWindows.of(Time.hours(1)))
.trigger(new CustomTrigger(10, 1 * 60 * 1000L))
//-------------------------------------------------------------------------
package com.meda.demo
import java.text.SimpleDateFormat
import com.meda.utils.DatePattern
import org.apache.flink.api.common.functions.ReduceFunction
import org.apache.flink.api.common.state.ReducingStateDescriptor
import org.apache.flink.streaming.api.windowing.triggers.{Trigger, TriggerResult}
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
class CustomTrigger extends Trigger[eventInputDT, TimeWindow] {
//触发计算的最大数量
private var maxCount: Long = _
//定时触发间隔时长 (ms)
private var interval: Long = 60 * 1000
//记录当前数量的状态
private lazy val countStateDescriptor: ReducingStateDescriptor[Long] = new ReducingStateDescriptor[Long]("counter", new Sum, classOf[Long])
//记录执行时间定时触发时间的状态
private lazy val processTimerStateDescriptor: ReducingStateDescriptor[Long] = new ReducingStateDescriptor[Long]("processTimer", new Update, classOf[Long])
//记录时间时间定时器的状态
private lazy val eventTimerStateDescriptor: ReducingStateDescriptor[Long] = new ReducingStateDescriptor[Long]("eventTimer", new Update, classOf[Long])
def this(maxCount: Int) {
this()
this.maxCount = maxCount
}
def this(maxCount: Int, interval: Long) {
this(maxCount)
this.interval = interval
}
override def onElement(element: eventInputDT, timestamp: Long, window: TimeWindow, ctx: Trigger.TriggerContext): TriggerResult = {
val countState = ctx.getPartitionedState(countStateDescriptor)
//计数状态加1
countState.add(1L)
//如果没有设置事件时间定时器,需要设置一个窗口最大时间触发器,这个目的是为了在窗口清除的时候 利用时间时间触发计算,否则可能会缺少部分数据
if (ctx.getPartitionedState(eventTimerStateDescriptor).get() == 0L) {
ctx.getPartitionedState(eventTimerStateDescriptor).add(window.maxTimestamp())
ctx.registerEventTimeTimer(window.maxTimestamp())
}
if (countState.get() >= this.maxCount) {
//达到指定指定数量
//删除事件时间定时触发的状态
ctx.deleteProcessingTimeTimer(ctx.getPartitionedState(processTimerStateDescriptor).get())
//清空计数状态
countState.clear()
//触发计算
TriggerResult.FIRE
} else if (ctx.getPartitionedState(processTimerStateDescriptor).get() == 0L) {
//未达到指定数量,且没有指定定时器,需要指定定时器
//当前定时器状态值加上间隔值
ctx.getPartitionedState(processTimerStateDescriptor).add(ctx.getCurrentProcessingTime + interval)
//注册定执行时间定时器
ctx.registerProcessingTimeTimer(ctx.getPartitionedState(processTimerStateDescriptor).get())
TriggerResult.CONTINUE
} else {
TriggerResult.CONTINUE
}
}
// 执行时间定时器触发
override def onProcessingTime(time: Long, window: TimeWindow, ctx: Trigger.TriggerContext): TriggerResult = {
if (ctx.getPartitionedState(countStateDescriptor).get() > 0 && (ctx.getPartitionedState(processTimerStateDescriptor).get() == time)) {
println(s"数据量未达到 $maxCount ,由执行时间触发器 ctx.getPartitionedState(processTimerStateDescriptor).get()) 触发计算")
ctx.getPartitionedState(processTimerStateDescriptor).clear()
ctx.getPartitionedState(countStateDescriptor).clear()
TriggerResult.FIRE
} else {
TriggerResult.CONTINUE
}
}
//事件时间定时器触发
override def onEventTime(time: Long, window: TimeWindow, ctx: Trigger.TriggerContext): TriggerResult = {
if ((time >= window.maxTimestamp()) && (ctx.getPartitionedState(countStateDescriptor).get() > 0L)) { //还有未触发计算的数据
println(s"事件时间到达最大的窗口时间,并且窗口中还有未计算的数据:${ctx.getPartitionedState(countStateDescriptor).get()},触发计算并清除窗口")
ctx.getPartitionedState(eventTimerStateDescriptor).clear()
TriggerResult.FIRE_AND_PURGE
} else if ((time >= window.maxTimestamp()) && (ctx.getPartitionedState(countStateDescriptor).get() == 0L)) { //没有未触发计算的数据
println("事件时间到达最大的窗口时间,但是窗口中没有有未计算的数据,清除窗口 但是不触发计算")
TriggerResult.PURGE
} else {
TriggerResult.CONTINUE
}
}
//窗口结束时清空状态
override def clear(window: TimeWindow, ctx: Trigger.TriggerContext): Unit = {
// println(s"清除窗口状态,定时器")
ctx.deleteEventTimeTimer(ctx.getPartitionedState(eventTimerStateDescriptor).get())
ctx.deleteProcessingTimeTimer(ctx.getPartitionedState(processTimerStateDescriptor).get())
ctx.getPartitionedState(processTimerStateDescriptor).clear()
ctx.getPartitionedState(eventTimerStateDescriptor).clear()
ctx.getPartitionedState(countStateDescriptor).clear()
}
//更新状态为累加值
class Sum extends ReduceFunction[Long] {
override def reduce(value1: Long, value2: Long): Long = value1 + value2
}
//更新状态为取新的值
class Update extends ReduceFunction[Long] {
override def reduce(value1: Long, value2: Long): Long = value2
}
}
留下的疑问:
之前看资料的时候好像说定时器只能设置一个,你设置多个它也只会选择一个执行。
但是我这里事件、执行时间定时器都设置,好像都生效了。这点还没看懂。
后续研究下啥情况。
本文为个人原创文章,转载请注明出处。!!!!
flink 自定义触发器 定时或达到数量触发的更多相关文章
- Flink 自定义触发器
import org.apache.flink.api.common.state.ReducingState; import org.apache.flink.api.common.state.Red ...
- zabbix自定义触发器
zabbix中监控项仅负责收集数据,而通常收集数据的目的还包括在某指标对应的数据超出合理范围时给相关人员发送告警信息,"触发器"正式 用于为监控项所收集的数据定义阈值,每一个触发器 ...
- Android中仿淘宝首页顶部滚动自定义HorizontalScrollView定时水平自动切换图片
Android中仿淘宝首页顶部滚动自定义HorizontalScrollView定时水平自动切换图片 自定义ADPager 自定义水平滚动的ScrollView效仿ViewPager 当遇到要在Vie ...
- jquery的自定义事件通过on绑定trigger触发
jquery绑定自定义事件,可以实现预先绑定好一个处理方法,当需要使用的时候利用jquery trigger来触发自定义事件,以达到方便快捷的目的.我们来假设一个这样的场景,一个textarea中的字 ...
- Flink自定义Sink
Flink自定义Sink Flink 自定义Sink,把socket数据流数据转换成对象写入到mysql存储. #创建Student类 public class Student { private i ...
- 4、flink自定义source、sink
一.Source 代码地址:https://gitee.com/nltxwz_xxd/abc_bigdata 1.1.flink内置数据源 1.基于文件 env.readTextFile(" ...
- zabbix自定义触发器进行监控
给某一主机创建触发器 触发器属性,其中centos是主机名,也就是你监控的那台主机的名字,可以点击bp2,查看该主机的hostname 检测该触发器 在该主机下可以看到刚创建的触发器 最后我们给该主机 ...
- Flink 自定义source和sink,获取kafka的key,输出指定key
--------20190905更新------- 沙雕了,可以用 JSONKeyValueDeserializationSchema,接收ObjectNode的数据,如果有key,会放在Objec ...
- Zabbix设置触发器调用远程主机脚本实现触发告警后自动启动自愈功能
参考:https://www.cnblogs.com/xiami-xm/p/8929163.html 当zabbix添加触发器后触发告警后可以设置发送邮件及短信告警,但是恢复故障需要运维人员收到告警以 ...
随机推荐
- 「P5004」专心OI - 跳房子 解题报告
题面 把\(N\)个无色格子排成一行,选若干个格子染成黑色,要求每个黑色格子之间至少间隔\(M\)个格子,求方案数 思路: 矩阵加速 根据题面,这一题似乎可以用递推 设第\(i\)个格子的编号为\(i ...
- Python 愤怒的小鸟代码实现:物理引擎pymunk使用
游戏介绍 最近比较忙,周末正好有时间写了python版本的愤怒的小鸟,使用了物理引擎pymunk,图片资源是从github上下载的,实现了一个可玩的简单版本. 功能实现如下: 支持小鸟类型:红色小鸟, ...
- 解决阿里云ECS下kubeadm部署k8s无法指定公网IP
背景 一般情况下,"kubeadm"部署集群时指定"--apiserver-advertise-address=<public_ip>"参数,即可在 ...
- 利用cuteftp上传并修改网站上内容
1.下载cuteftp 2.在host中输入网址(如:219.142.121.2) 3.username中输入(如:BNULS) 4.passpord中输入:(如410teamgood) 5.端口输入 ...
- 手动滑稽之golang-vmware-driver广告篇
本来在Windows 7 + Tiny Linux 4.19 + XFS + Vmware Workstation 15 (PRO) 下篇dockerの奥义之后的UEFI补完延迟了... 虽然用efi ...
- JVM之GC算法的实现(垃圾回收器)
上一节:<JVM之GC算法> 知道GC算法的理论基础,我们来看看具体的实现.只有落地的理论,才是真理. 一.JVM垃圾回收器的结构 JVM虚拟机规范对垃圾收集器应该如何实现没有规定,因为没 ...
- MapGIS注记文字无损转入ArcGIS软件
在GIS软件中,注释是一种十分特殊的对象,虽然各类软件都支持注释,但它却不属于GIS的基本对象.因此通常的格式转换软件,都不对注释对象做特别的支持,我们最常见的Shape文件格式就只有点.线.面要素, ...
- Helm, 在Kubernetes中部署应用的利器
一.背景 Kubernetes(k8s)是一个基于容器技术的分布式架构领先方案.它在Docker技术的基础上,为容器化的应用提供部署运行.资源调度.服务发现和动态伸缩等一系列完整功能,提高了大规模容器 ...
- 数字金字塔 动态规划(优化版) USACO 一维dp压缩版
1016: 1.5.1 Number Triangles 数字金字塔 时间限制: 1 Sec 内存限制: 128 MB提交: 9 解决: 8[提交] [状态] [讨论版] [命题人:外部导入] 题 ...
- Linux 编程题
1. 产生一个进程树,父进程有2个子进程,这2个子进程分别又有2个子进程,每个进程休眠5秒后退出,并在退出前打印自己的进程id号. # include<stdio.h> # include ...