Flink 中定时加载外部数据

社区中有好几个同学问过这样的场景：　　

flink 任务中，source 进来的数据，需要连接数据库里面的字段，再做后面的处理

这里假设一个 ETL 的场景，输入数据包含两个字段 “type, userid....” ，需要根据 type，连接一张 mysql 的配置表，关联 type 对应的具体内容。相对于输入数据的数量，type 的值是很少的（这里默认只有10种），所以对应配置表就只有10条数据，配置是会定时修改的（比如跑批补充数据），配置的修改必须在一定时间内生效。

实时 ETL，需要用里面的一个字段去关联数据库，补充其他数据，进来的数据中关联字段是很单一的（就10个），对应数据库的数据也很少，如果用异步 IO，感觉会比较傻（浪费资源、性能还不好）。同时数据库的数据是会不定时修改的，所以不能在启动的时候一次性加载。

Flink 现在对应这种场景可以使用 Boradcase state 做，如：基于Broadcast 状态的Flink Etl Demo

这里想说的是另一种更简单的方法： 使用定时器，定时加载数据库的数据 （就是简单的Java定时器）

先说一下代码流程：

1、自定义的 source，输入逗号分隔的两个字段

2、使用 RichMapFunction 转换数据，在 open 中定义定时器，定时触发查询 mysql 的任务，并将结果放到一个 map 中

3、输入数据关联 map 的数据，然后输出

先看下数据库中的数据：

mysql> select * from timer;

+------+------+

| id   | name |

+------+------+

| 0    | 0zOq |

| 1    | 1hKC |

| 2    | 2ibM |

| 3    | 3fCe |

| 4    | 4TaM |

| 5    | 5URU |

| 6    | 6WhP |

| 7    | 7zjn |

| 8    | 8Szl |

| 9    | 9blS |

+------+------+

10 rows in set (0.01 sec)

总共10条数据，id 就是对应的关联字段，需要填充的数据是 name

下面是主要的代码：// 自定义的source，输出 x,xxx 格式随机字符

    val input = env.addSource(new TwoStringSource)

    val stream = input.map(new RichMapFunction[String, String] {

      val jdbcUrl = "jdbc:mysql://venn:3306?useSSL=false&allowPublicKeyRetrieval=true"

      val username = "root"

      val password = "123456"

      val driverName = "com.mysql.jdbc.Driver"

      var conn: Connection = null

      var ps: PreparedStatement = null

      val map = new util.HashMap[String, String]()

      override def open(parameters: Configuration): Unit = {

        logger.info("init....")

        query()

        // new Timer

        val timer = new Timer(true)

        // schedule is 10 second 定义了一个10秒的定时器，定时执行查询数据库的方法

        timer.schedule(new TimerTask {

          override def run(): Unit = {

            query()

          }

        }, 10000, 10000)



      }

      override def map(value: String): String = {

        // concat input and mysql data，简单关联输出

        value + "-" + map.get(value.split(",")(0))

      }

      /**

        * query mysql for get new config data

        */

      def query() = {

        logger.info("query mysql")

        try {

          Class.forName(driverName)

          conn = DriverManager.getConnection(jdbcUrl, username, password)

          ps = conn.prepareStatement("select id,name from venn.timer")

          val rs = ps.executeQuery

          while (!rs.isClosed && rs.next) {

            val id = rs.getString(1)

            val name = rs.getString(2)
            // 将结果放到 map 中

            map.put(id, name)

          }

          logger.info("get config from db size : {}", map.size())

        } catch {

          case e@(_: ClassNotFoundException | _: SQLException) =>

            e.printStackTrace()

        } finally {

          ps.close()

          conn.close()

        }

      }

    })

//          .print()

    val sink = new FlinkKafkaProducer[String]("timer_out"

      , new MyKafkaSerializationSchema[String]()

      , Common.getProp

      , FlinkKafkaProducer.Semantic.EXACTLY_ONCE)

    stream.addSink(sink)

简单的Java定时器：

val timer = new Timer(true)

// schedule is 10 second, 5 second between successive task executions

timer.schedule(new TimerTask {

  override def run(): Unit = {

    query()

  }

}, 10000, )

------------------20200327 改---------------------

之前博客写的有问题，public void schedule(TimerTask task, long delay, long period) 的第三个参数才是重复执行的时间间隔，0 是不执行，我之前写的时候放上去的案例，调用的 Timer 的构造方法是： public void schedule(TimerTask task, long delay) 只会在 delay 时间后调用一次，并不会重复执行，不需要调用： public void schedule(TimerTask task, long delay, long period) 这样的构造方法，才能真正的定时执行。

使用之前的方法执行的，会看到query 方法执行了两次，是 open 中主动调用了一次和之后调度了一次，定时器就结束了。

感谢社区大佬指出

同时社区还有大佬指出： ScheduledExecutorService 会比 timer 更好；理由： Timer里边的逻辑失败的话不会抛出任何异常，直接结束，建议用ScheduledExecutorService替换Timer并且捕获下异常看看

------------------------------------

看下输出的数据：

7,N-7zjn

7,C-7zjn

7,U-7zjn

4,T-4TaM

7,J-7zjn

9,R-9blS

4,C-4TaM

9,T-9blS

4,A-4TaM

6,I-6WhP

9,U-9blS

注：“-” 之前是原始数据，后面是关联后的数据

部署到服务器上定时器的调度：

2019-09-28 18:28:13,476 INFO  com.venn.stream.api.timer.CustomerTimerDemo$                  - query mysql

2019-09-28 18:28:13,480 INFO  com.venn.stream.api.timer.CustomerTimerDemo$                  - get config from db size : 10

2019-09-28 18:28:18,553 INFO  org.apache.flink.streaming.api.functions.sink.TwoPhaseCommitSinkFunction  - FlinkKafkaProducer 0/1 - checkpoint 17 complete, committing transaction TransactionHolder{handle=KafkaTransactionState [transactionalId=null, producerId=-1, epoch=-1], transactionStartTime=1569666488499} from checkpoint 17

2019-09-28 18:28:23,476 INFO  com.venn.stream.api.timer.CustomerTimerDemo$                  - query mysql

2019-09-28 18:28:23,481 INFO  com.venn.stream.api.timer.CustomerTimerDemo$                  - get config from db size : 10

2019-09-28 18:28:28,549 INFO  org.apache.flink.streaming.api.functions.sink.TwoPhaseCommitSinkFunction  - FlinkKafkaProducer 0/1 - checkpoint 18 complete, committing transaction TransactionHolder{handle=KafkaTransactionState [transactionalId=null, producerId=-1, epoch=-1], transactionStartTime=1569666498505} from checkpoint 18

2019-09-28 18:28:33,477 INFO  com.venn.stream.api.timer.CustomerTimerDemo$                  - query mysql

2019-09-28 18:28:33,484 INFO  com.venn.stream.api.timer.CustomerTimerDemo$                  - get config from db size : 10

十秒调度一次

欢迎关注Flink菜鸟公众号，会不定期更新Flink（开发技术）相关的推文

Flink 中定时加载外部数据的更多相关文章

iOS中 UIWebView加载网络数据技术分享
直奔核心: #import "TechnologyDetailViewController.h" #define kScreenWidth [UIScreen mainScreen ...
Vue.js中滚动条加载更多数据
本文章参考:http://www.cnblogs.com/ssrsblogs/p/6108423.html 分析:1.需要判断滚动条是否到底部: 需要用到DOM的三个属性值,即scrollTop.cl ...
Skyline TerraExplorer -二次开发- 加载外部数据的各种连接串
Skyline 可以连接外部的数据源,包括SQL Server,Oracle ,excel,mySQL,SQlite,WFS....... 连接字符串如下:例如连接shp文件,为“FileName=C ...
WinForm中异步加载数据并使用进度条
在WinForm程序中,有时会因为加载大量数据导致UI界面假死,这种情况对于用户来说是非常不友好的.因此,在加载大量数据的情况下,首先应该将数据加载放在另一线程中进行,这样保证了UI界面的响应:其次可 ...
Ajax在jQuery中的应用（加载异步数据、请求服务器数据）
加载异步数据 jQuery中的load()方法 load(url,[data],[callback]) url:被加载的页面地址 [data]:可选项表示发送到服务器的数据,其格式为 key/valu ...
Ajax在jQuery中的应用---加载异步数据
Ajax是Asynchronous JavaScript and XML的缩写,其核心是通过XMLHttpRequest对象,以一种异步的方式,向服务器发送数据请求,并通过该对象接收请求返回的数据,从 ...
Silverlight实用窍门系列：2.Silverlight动态加载外部XML指定地址的WebService---（动态加载外部XML文件中指定的WebService地址）【附带实例源码】
接上节所讲的,Silverlight可以加载外部的XML文件里面的内容,那么我们可不可以在外部XML里面配置一个WebService地址,并且以此加载这个地址来动态加载WebService呢?这样子就 ...
html中的数据岛：利用DSO和javascript在html中动态加载和浏览xml数据
1.DSO也叫做数据源对象,IE 4.0引入了DSO,在IE 5.0对DSO技术进行很大的扩展.以往如果数据是通过SQL语言对数据库进行查询得到的结果,那么就把它们存放在ADO(ActiveX Dat ...
关于Vue中页面(父组件)下拉，页面中的子组件加载更多数据的实现方法
一个项目中存在很多这种情况:父组件(页面)中的子组件需要做下拉加载更多的需求,但是这个下拉到底部的动作只能通过监控页面(父组件)来完成这就需要父子组件之间的通信,代码如下: 1. 建立一个用于父子组 ...

随机推荐

c++的动态绑定和静态绑定及多态的实现原理(摘)
C++多态的实现原理为了支持c++的多态性,才用了动态绑定和静态绑定.理解它们的区别有助于更好的理解多态性,以及在编程的过程中避免犯错误. 需要理解四个名词:对象的静态类型:对象在声明时采用的类型. ...
linux中service模板
[Unit] Description=描述 After=syslog.target network.target remote-fs.target nss-lookup.target [Service ...
洛谷 P1955 [NOI2015]程序自动分析题解
每日一题 day22 打卡 Analysis 离散化+并查集先离散化所有的约束条件,再处理所有e=1的条件,将i的祖先和j的祖先合并到一个集合中:e=0时,如果i的祖先与j的祖先在同一个集合中,说明 ...
2017.10.7 国庆清北 D7T1 计数
题目描述给出m个数a[1],a[2],…,a[m] 求1~n中有多少数不是a[1],a[2],…,a[m]的倍数. 输入输出格式输入格式: 输入文件名为count.in. 第一行,包含两个整数:n ...
Day15:大前端
垂直水平居中 css: display: table-cell; text-align: center; vertical-align: middle; div: display: inline-bl ...
rocketMq和kafka的架构区别
概述其实一直想写一篇rocketMq和kafka在架构设计上的差别,但是一直有个问题没搞明白所以迟迟没动手,今天无意中听人点播了一下似乎明白了这个问题,所以就有了这篇对比. 这篇博文主要讲清楚kaf ...
python提取计算结果的最大最小值及其坐标
我们在fluent当中后处理的时候,可以通过fluent本身得到某些物理量的最大值和最小值,但是我们却无法确定这些最大值和最小值的具体位置.其实我们可以将求解数据导出以后,借助python求得最大值和 ...
CentOS安装相应版本的内核源码
昨天接到同事给安排的新任务,测试系统性能:网上查了些资料,目测perf功能很强大,而且是内核源码自带的,编译安装即可使用:看了下自己的虚拟机,没有内核源码,好吧,装一个: 查看一下系统版本: #cat ...
spark学习记录-2
spark编程模型 ====== spark如何工作的? 1.user应用产生RDD,操作变形,运行action操作 2.操作的结果在有向无环图DAG中 3.DAG被编译到stages阶段中 4.每一 ...
卷积和池化的区别、图像的上采样（upsampling）与下采样（subsampled）
1.卷积当从一个大尺寸图像中随机选取一小块,比如说 8x8 作为样本,并且从这个小块样本中学习到了一些特征,这时我们可以把从这个 8x8 样本中学习到的特征作为探测器,应用到这个图像的任意地方中去. ...

Flink 中定时加载外部数据

Flink 中定时加载外部数据的更多相关文章

随机推荐

热门专题