flink双流join

package com.streamingjoin

import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}

import org.apache.flink.streaming.api.TimeCharacteristic

import org.apache.flink.streaming.api.functions.co.KeyedCoProcessFunction

import org.apache.flink.streaming.api.scala._

import org.apache.flink.util.Collector

/**

  * 将五分钟之内的订单信息和支付信息进行对账，对不上的发出警告

  */

object TwoStreamJoinDemo {

  // 用来输出没有匹配到的订单支付事件

  val unmatchedOrders = new OutputTag[String]("unmatched-orders")

  // 用来输出没有匹配到的第三方支付事件

  val unmatchedPays = new OutputTag[String]("unmatched-pays")

  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    env.setParallelism(1)

    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val orders: KeyedStream[OrderEvent, String] = env.fromElements(

      OrderEvent("order_1", "pay", 2000L),

      OrderEvent("order_2", "pay", 5000L),

      OrderEvent("order_3", "pay", 6000L))

      .assignAscendingTimestamps(_.eventTime)

      .keyBy(_.orderId)

    val pays: KeyedStream[PayEvent, String] = env

      .fromElements(

        PayEvent("order_1", "weixin", 7000L),

        PayEvent("order_2", "weixin", 8000L),

        PayEvent("order_4", "weixin", 9000L)

      )

      .assignAscendingTimestamps(_.eventTime)

      .keyBy(_.orderId)

    val processed: DataStream[String] = orders.connect(pays).process(new MatchFunction)

    processed.print()

    processed.getSideOutput(unmatchedOrders).print()

    processed.getSideOutput(unmatchedPays).print()

    env.execute()

  }

  //订单支付事件

  case class OrderEvent(orderId: String,

                        eventType: String,

                        eventTime: Long)

  //第三方支付事件，例如微信，支付宝

  case class PayEvent(orderId: String,

                      eventType: String,

                      eventTime: Long)

  //进入同一条流中的数据肯定是同一个key，即OrderId

  //肯定会用到状态了

  class MatchFunction extends KeyedCoProcessFunction[String, OrderEvent, PayEvent, String] {

    //状态的定义

    lazy private val orderState: ValueState[OrderEvent] = getRuntimeContext.getState(new ValueStateDescriptor[OrderEvent]("orderState", classOf[OrderEvent]))

    lazy private val payState: ValueState[PayEvent] = getRuntimeContext.getState(new ValueStateDescriptor[PayEvent]("payState", classOf[PayEvent]))

    override def processElement1(value: OrderEvent, ctx: KeyedCoProcessFunction[String, OrderEvent, PayEvent, String]#Context, out: Collector[String]): Unit = {

      //从payState中查找数据，如果存在，说明匹配成功

      val pay = payState.value()

      if (pay != null) {

        payState.clear()

        out.collect("订单ID为 " + pay.orderId + " 的两条流对账成功")

      } else {

        //如果不存在，则说明可能对应的pay数据没有来，需要存入状态等待

        //定义一个5min的定时器，到时候再匹配，如果还没匹配上，则说明匹配失败发出警告

        orderState.update(value)

        ctx.timerService().registerEventTimeTimer(value.eventTime + 5000)

      }

    }

    override def processElement2(value: PayEvent, ctx: KeyedCoProcessFunction[String, OrderEvent, PayEvent, String]#Context, out: Collector[String]): Unit = {

      val order = orderState.value()

      if (order != null) {

        orderState.clear()

        out.collect("订单ID为 " + order.orderId + " 的两条流对账成功！")

      } else {

        payState.update(value)

        ctx.timerService().registerEventTimeTimer(value.eventTime + 5000)

      }

    }

    override def onTimer(timestamp: Long, ctx: KeyedCoProcessFunction[String, OrderEvent, PayEvent, String]#OnTimerContext, out: Collector[String]): Unit = {

      if (orderState.value() != null) {

        //将警告信息发送到侧输出流中

        ctx.output(unmatchedOrders, s"订单ID为 ${orderState.value().orderId} 的两条流没有对账成功！")

        orderState.clear()

      }

      if (payState.value() != null) {

        ctx.output(unmatchedPays, s"订单ID为 ${payState.value().orderId} 的两条流没有对账成功！ ")

        payState.clear()

      }

    }

  }

}

flink双流join的更多相关文章

面试官: Flink双流JOIN了解吗? 简单说说其实现原理
摘要:今天和大家聊聊Flink双流Join问题.这是一个高频面试点,也是工作中常遇到的一种真实场景. 本文分享自华为云社区<万字直通面试:Flink双流JOIN>,作者:大数据兵工厂 . ...
flink-----实时项目---day06-------1. 获取窗口迟到的数据 2.双流join（inner join和left join（有点小问题）） 3 订单Join案例（订单数据接入到kafka，订单数据的join实现，订单数据和迟到数据join的实现）
1. 获取窗口迟到的数据主要流程就是给迟到的数据打上标签,然后使用相应窗口流的实例调用sideOutputLateData(lateDataTag),从而获得窗口迟到的数据,进而进行相关的计算,具体 ...
flink dataset join笔记
1.dataset的join连接,通过key进行关联,一般情况下的join都是inner join,类似sql里的inner join key包括以下几种情况: a key expression a ...
Apache Flink 漫谈系列 - JOIN 算子
聊什么在<Apache Flink 漫谈系列 - SQL概览>中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL ...
Apache-Flink深度解析-JOIN 算子
什么是JOIN 在<Apache Flink 漫谈系列 - SQL概览>中我对JOIN算子有过简单的介绍,这里我们以具体实例的方式让大家对JOIN算子加深印象.JOIN的本质是分别从N(N ...
Flink sql 之 join 与 StreamPhysicalJoinRule （源码解析）
源码分析基于flink1.14 Join是flink中最常用的操作之一,但是如果滥用的话会有很多的性能问题,了解一下Flink源码的实现原理是非常有必要的本文的join主要是指flink sql的R ...
Flink官网文档翻译
http://ifeve.com/flink-quick-start/ http://vinoyang.com/2016/05/02/flink-concepts/ http://wuchong.me ...
Flink 灵魂两百问，这谁顶得住？
Flink 学习 https://github.com/zhisheng17/flink-learning 麻烦路过的各位亲给这个项目点个 star,太不易了,写了这么多,算是对我坚持下来的一种鼓励吧 ...
Flink/CEP/规则引擎/风控
基于 Apache Flink 和规则引擎的实时风控解决方案对一个互联网产品来说,典型的风控场景包括:注册风控.登陆风控.交易风控.活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三 ...

随机推荐

【动画消消乐】HTML+CSS 自定义加载动画：怦然心跳 066
前言 Hello!小伙伴! 非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出- 自我介绍 ଘ(੭ˊᵕˋ)੭ 昵称:海轰标签:程序猿|C++选手|学生简介:因C语言结识编程,随后转入计 ...
[考试总结]noip模拟15
这次不咕了. 首先发现这套题目十分毒瘤, \(T1\) 就没有太大的思路. 结果最后也是暴力收场... 菜. \(T1\;60pts\) 暴力居然还是挺高的,\(T2\) 莽了一个随机化上去结果还是暴 ...
[考试总结]noip模拟11
菜这次考试又是骗了一堆分数... 然而其实一个正解都没写... \(T1\) 的方法说实话确实不是很正统.... 然而却 \(A\) 了... 在打完 \(T1\) 后拍了老长时间... 然后就耽搁 ...
odoo12动作里添加向导
在odoo12的动作里添加向导例子1:只会在tree视图里显示,不会在form里显示 <act_window id="action_change_stage_ttest" ...
在Python中执行普通除法
如果希望Python只执行普通的除法,那么可以在程序前加上以下语句: 1 from _future_ import division 如果通过命令行(比如在Linux系统上)运行Python,可以使用 ...
endnote x9.3.3 for windows安装教程
EndNote X9.3.3 是一款非常nice的实用型文献管理软件,EndNote X9功能极其强劲,便捷好用.本文提供EndNote X9.3.3安装破解激活教程.方法,内附EndNote x9. ...
深入刨析tomcat 之---第6篇 how tomcat works 第5章容器实现原理
writedby 张艳涛
SAS启动时自动执行代码
有时候我们希望SAS启动时自动执行已经编写好的程序,可以按照以下方法实现: 首先正常打开SAS,编写我们想要让SAS启动时自动执行的代码,例如获取桌面文件夹路径,以便在其他程序中引用这个路径. pro ...
为什么大家都在用WebRTC？
WebRTC代表网络实时通信.它是一种非常令人兴奋,强大且具有高度破坏性的尖端技术和标准.自从WebRTC诞生以来,80%的浏览器都开始支持它.有数据显示,2017年~2021年期间,WebRTC市场 ...
js 原始数据类型、引用数据类型
js的数据类型划分方式为原始数据类型和引用数据类型栈: 原始数据类型(Undefined,Null,Boolean,Number.String) 堆: 引用数据类型(对象.数组.函数) 两种类型 ...

flink双流join

flink双流join的更多相关文章

随机推荐

热门专题