接上文: 【翻译】The Broadcast State Pattern(广播状态) 

最近尝试了一下Flink 的 Broadcase 功能,在Etl,流表关联场景非常适用:一个流数据量大,一个流数据量小(配置表)需要更新

业务逻辑如下:

  

注: 正常情况广播流只有一个输出源,更新也在这个源里,这里做了个优化:将广播流的输入源改为两部分配置文件和更新topic(原因:flink 读取文件,读完就结束了无法做更新,而每次从kafka获取全量配置数据,涉及到kafka topic数据的删除时间,除非涉及非常长的删除时间,不然每次读取全量也不太方便),这里不使用flink的CacheFile,因为不能更新

具体业务如下:转码三位城市编码为对应城市中文

  1. 自定义输入流,输入三位的城市编码和五位的随机字符串

  2. 广播流读取配置文件和配置文件更新topic

  3. connect两个流,读取配置文件对应的数据解析数据流输入的数据

自定义输入流如下:

class RadomFunction extends SourceFunction[String]{
var flag = true
override def cancel(): Unit = {
flag = false
} override def run(ctx: SourceFunction.SourceContext[String]): Unit = {
while (flag){
for (i <- 0 to 300) {
var nu = i.toString
while (nu.length < 3) {
nu = "0" + nu
}
ctx.collect(nu + "," + StringUtil.getRandomString(5))
Thread.sleep(2000)
}
}
}
}

Etl 代码如下:

import java.io.File
import com.venn.flink.util.{StringUtil}
import com.venn.index.conf.Common
import org.apache.flink.api.common.serialization.SimpleStringSchema
import org.apache.flink.api.common.state.MapStateDescriptor
import org.apache.flink.api.common.typeinfo.BasicTypeInfo
import org.apache.flink.api.scala._
import org.apache.flink.runtime.state.filesystem.FsStateBackend
import org.apache.flink.streaming.api.functions.co.BroadcastProcessFunction
import org.apache.flink.streaming.api.functions.source.SourceFunction
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.streaming.api.{CheckpointingMode, TimeCharacteristic}
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer
import org.apache.flink.util.Collector /**
* broadcast
*/
object BroadCastDemo { def main(args: Array[String]): Unit = {
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
if ("/".equals(File.separator)) {
val backend = new FsStateBackend(Common.CHECK_POINT_DATA_DIR, true)
env.setStateBackend(backend)
env.enableCheckpointing(10 * 1000, CheckpointingMode.EXACTLY_ONCE)
} else {
env.setMaxParallelism(1)
env.setParallelism(1)
}
// 配置更新流
val configSource = new FlinkKafkaConsumer[String]("broad_cast_demo", new SimpleStringSchema, Common.getProp)
// 配置流的初始化,可以通过读取配置文件实现
var initFilePath = ""
if ("/".equals(File.separator)){
initFilePath = "hdfs:///venn/init_file.txt"
}else{
initFilePath = "D:\\idea_out\\broad_cast.txt"
}
val init = env.readTextFile(initFilePath)
val descriptor = new MapStateDescriptor[String, String]("dynamicConfig", BasicTypeInfo.STRING_TYPE_INFO, BasicTypeInfo.STRING_TYPE_INFO)
val configStream = env.addSource(configSource).union(init).broadcast(descriptor) val input = env.addSource(new RadomFunction)
.connect(configStream)
.process(new BroadcastProcessFunction[String, String, String] {
override def processBroadcastElement(value: String, ctx: BroadcastProcessFunction[String, String, String]#Context, out: Collector[String]): Unit = { println("new config : " + value)
val configMap = ctx.getBroadcastState(descriptor)
// process update configMap,读取配置数据,写入广播状态中
val line = value.split(",")
configMap.put(line(0), line(1))
}
override def processElement(value: String, ctx: BroadcastProcessFunction[String, String, String]#ReadOnlyContext, out: Collector[String]): Unit = {
// use give key, return value
val configMap = ctx.getBroadcastState(descriptor)
// 解析三位城市编码,根据广播状态对应的map,转码为城市对应中文
// println(value)
val line = value.split(",")
val code = line(0)
var va = configMap.get(code)
// 不能转码的数据默认输出 中国(code=xxx)
if ( va == null){
va = "中国(code="+code+")";
}else{
va = va + "(code="+code+")"
}
out.collect(va + "," + line(1))
}
})
input.print() env.execute("BroadCastDemo")
}
}

配置数据如下:

001,邯郸市
002,石家庄
003,保定市
004,张家口
005,承德市
006,唐山市
007,廊坊市
008,沧州市
009,衡水市
010,邢台市

数据源数据如下:

001,bGTqQM
002,sCfdSK
003,RWtLNC
004,qkGita
005,fOemDF
006,KRaUmj
007,MNwKdS
008,RgZDlI
009,QbUyeh

转码后输出如下:

邯郸市(code=001),bGTqQM
石家庄(code=002),sCfdSK
保定市(code=003),RWtLNC
张家口(code=004),qkGita
承德市(code=005),fOemDF
唐山市(code=006),KRaUmj
廊坊市(code=007),MNwKdS
沧州市(code=008),RgZDlI
衡水市(code=009),QbUyeh

执行结果如下:

...
new config : 047,十堰市
new config : 048,随枣市
new config : 049,荆门市
new config : 050,江汉(仙桃)
邯郸市(code=001),ovLKQN
石家庄(code=002),QTgxXn
保定市(code=003),bIPefX
张家口(code=004),XcdHUd
...
宜昌市(code=045),sQRonA
恩施市(code=046),gfipAY
十堰市(code=047),ASPulh
随枣市(code=048),mqurwg
荆门市(code=049),hfTlue
江汉(仙桃)(code=050),EfiXec
中国(code=051),xGuihq # 不能转码数据
中国(code=052),niMlrb
中国(code=053),fHvIpU
中国(code=054),MdqqCb
中国(code=055),CFgNmM
...

广播流数据更新如下:

new config : 150,xxx   # 获取当新配置数据
中国(code=148),fLtwye
中国(code=149),bEJfMP
new config : 151,fff
xxx(code=150),TTIPii # 新配置数据转码数据
fff(code=151),iJSAjJ
中国(code=152),yBvlUZ
new config : 152,ggg

搞定

基于Broadcast 状态的Flink Etl Demo的更多相关文章

  1. Nancy之基于Nancy.Hosting.Self的小Demo

    继昨天的Nancy之基于Nancy.Hosting.Aspnet的小Demo后, 今天来做个基于Nancy.Hosting.Self的小Demo. 关于Self Hosting Nancy,官方文档的 ...

  2. Nancy之基于Self Hosting的补充小Demo

    前面把Hosting Nancy with ASP.NET.Self Hosting Nancy和Hosting Nancy with OWIN 以demo的形式简单描述了一下. 这篇是为Self H ...

  3. 基于纹理的图片检索及demo(未启动)

    基于纹理的图片检索及demo(未启动)

  4. flink ETL数据处理

    Flink ETL 实现数据清洗   一:需求(针对算法产生的日志数据进行清洗拆分) 1. 算法产生的日志数据是嵌套json格式,需要拆分 2.针对算法中的国家字段进行大区转换 3.最后把不同类型的日 ...

  5. ECharts 初识(基于MVC+jQuery+Angularjs实现的Demo)

    一.背景:      我们这行做web开发的,很多时候都需要做数据统计报表,现在我所使用的是来自百度团队的ECharts.官方网址:http://echarts.baidu.com/      我们知 ...

  6. Nancy之基于Nancy.Hosting.Aspnet的小Demo

    近来学习了一下Nancy这个框架,感觉挺好用的,就写篇简单的文章记录一下大致用法,由于是刚接触,写的代码 可能不规范,也没有具体的分层..莫吐槽... Nancy的官网:http://nancyfx. ...

  7. 基于highcharts封装的组件-demo&源码

    前段时间做的项目中需要用到highcharts绘制各种图表,其实绘制图表本身代码很简单,但是由于需求很多,有大量的图形需要绘制,所以就不得不复制粘贴大量重复(默认配置等等)的代码,所以,后来抽空自己基 ...

  8. 搞了个基于zookeeper的Leader/Follower切换Demo

    基于zookeeper写了个Leader选举类库demo,场景如下: 上图中的Program1..4可以部署在1台server上,也可以部署在多台server上,也可以是一个进程中的多个线程. 运行效 ...

  9. 基于Cocos2dx + box2d 愤怒的小鸟的实现Demo

    1. Demo初始界面 2. 游戏界面 3. 精确碰撞检測 4. 下载  压缩文件文件夹 AngryBird source    愤慨的小鸟Demo源码,基于Cocos2dx C++,以及box2d技 ...

随机推荐

  1. zip unzip tar 压缩相关

    unzip 解压时,需要直接覆盖以解压的文件 -o 则不再进行询问,直接覆盖原文件解压缩 示例 unzip -o file_name.zip

  2. 07 Node.js安装及环境配置

    二.安装Node.js步骤 1.下载对应你系统的Node.js版本:https://nodejs.org/en/download/2.选安装目录进行安装3.环境配置4.测试 开始安装 1.下载完成后, ...

  3. https://www.cnblogs.com/myblogs-miller/p/9046425.html

    # SpringBoot中CommandLineRunner的作用> 平常开发中有可能需要实现在项目启动后执行的功能,SpringBoot提供的一种简单的实现方案就是添加一个model并实现Co ...

  4. php使用WebUploader做大文件的分块和断点续传

    核心原理: 该项目核心就是文件分块上传.前后端要高度配合,需要双方约定好一些数据,才能完成大文件分块,我们在项目中要重点解决的以下问题. * 如何分片: * 如何合成一个文件: * 中断了从哪个分片开 ...

  5. windbg调试托管代码 .Net clr

    现在很多的程序都是多语言混合编程的,比如我司的产品,就是用C++/.net clr混合编制的.那么当我们调试这样的程序时,一定要注意,比如有时我们只看到c++的栈和名称,而.net clr的代码确看不 ...

  6. 【转】根据Quartz-Cron表达式获取最近几次执行时间

    public static List<String> getRecentTriggerTime(String cron) { List<String> list = new A ...

  7. jmeter正则中常见的转义字符-笔记三

    背景和目的 接口测试过程中难免会遇到由于有转义符号正则表达式提取不出来的情况,根据小伙伴们的分享和参考自己实践总结了多种情况 参考 首先,感谢如下常见转义字符,感谢提供参考的小伙伴  参考:https ...

  8. SQL数据清洗

    大家好,我是jacky,很高兴继续跟大家分享<MySQL数据分析实战>,从本节课程开始,我们的课程就会变得越来越实战,也会越来越有意思了: 我们课程的主体叫MySQL数据分析实战,那我们用 ...

  9. UOJ#220. 【NOI2016】网格 Tarjan

    原文链接www.cnblogs.com/zhouzhendong/p/UOJ220.html 前言 真是一道翔题. 草率题解 -1 的情况很好判,只有两种情况: n * m - c < 2 或者 ...

  10. Shell编程—企业生产案例

    Linux系统Shell编程—企业生产案例(一) 企业数据库可以说是重点保护对象啊,没有之一,数据在当今企业里就是生命线,因此今天就来说一说,如何通过shell脚本来检查或监控MYSQL数据库服务是否 ...