欢迎访问我的GitHub

https://github.com/zq2599/blog_demos

内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;

本篇概览

本文是《Flink的DataSource三部曲》系列的第二篇,上一篇《Flink的DataSource三部曲之一:直接API》学习了StreamExecutionEnvironment的API创建DataSource,今天要练习的是Flink内置的connector,即下图的红框位置,这些connector可以通过StreamExecutionEnvironment的addSource方法使用:



今天的实战选择Kafka作为数据源来操作,先尝试接收和处理String型的消息,再接收JSON类型的消息,将JSON反序列化成bean实例;

Flink的DataSource三部曲文章链接

  1. 《Flink的DataSource三部曲之一:直接API》
  2. 《Flink的DataSource三部曲之二:内置connector》
  3. 《Flink的DataSource三部曲之三:自定义》

源码下载

如果您不想写代码,整个系列的源码可在GitHub下载到,地址和链接信息如下表所示(https://github.com/zq2599/blog_demos):

名称 链接 备注
项目主页 https://github.com/zq2599/blog_demos 该项目在GitHub上的主页
git仓库地址(https) https://github.com/zq2599/blog_demos.git 该项目源码的仓库地址,https协议
git仓库地址(ssh) git@github.com:zq2599/blog_demos.git 该项目源码的仓库地址,ssh协议

这个git项目中有多个文件夹,本章的应用在flinkdatasourcedemo文件夹下,如下图红框所示:

环境和版本

本次实战的环境和版本如下:

  1. JDK:1.8.0_211
  2. Flink:1.9.2
  3. Maven:3.6.0
  4. 操作系统:macOS Catalina 10.15.3 (MacBook Pro 13-inch, 2018)
  5. IDEA:2018.3.5 (Ultimate Edition)
  6. Kafka:2.4.0
  7. Zookeeper:3.5.5

请确保上述内容都已经准备就绪,才能继续后面的实战;

Flink与Kafka版本匹配

  1. Flink官方对匹配Kafka版本做了详细说明,地址是:https://ci.apache.org/projects/flink/flink-docs-stable/dev/connectors/kafka.html
  2. 要重点关注的是官方提到的通用版(universal Kafka connector ),这是从Flink1.7开始推出的,对于Kafka1.0.0或者更高版本都可以使用:



3. 下图红框中是我的工程中要依赖的库,蓝框中是连接Kafka用到的类,读者您可以根据自己的Kafka版本在表格中找到适合的库和类:

实战字符串消息处理

  1. 在kafka上创建名为test001的topic,参考命令:
  1. ./kafka-topics.sh \
  2. --create \
  3. --zookeeper 192.168.50.43:2181 \
  4. --replication-factor 1 \
  5. --partitions 2 \
  6. --topic test001
  1. 继续使用上一章创建的flinkdatasourcedemo工程,打开pom.xml文件增加以下依赖:
  1. <dependency>
  2. <groupId>org.apache.flink</groupId>
  3. <artifactId>flink-connector-kafka_2.11</artifactId>
  4. <version>1.10.0</version>
  5. </dependency>
  1. 新增类Kafka240String.java,作用是连接broker,对收到的字符串消息做WordCount操作:
  1. package com.bolingcavalry.connector;
  2. import com.bolingcavalry.Splitter;
  3. import org.apache.flink.api.common.serialization.SimpleStringSchema;
  4. import org.apache.flink.streaming.api.datastream.DataStream;
  5. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  6. import org.apache.flink.streaming.api.windowing.time.Time;
  7. import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
  8. import java.util.Properties;
  9. import static com.sun.tools.doclint.Entity.para;
  10. public class Kafka240String {
  11. public static void main(String[] args) throws Exception {
  12. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  13. //设置并行度
  14. env.setParallelism(2);
  15. Properties properties = new Properties();
  16. //broker地址
  17. properties.setProperty("bootstrap.servers", "192.168.50.43:9092");
  18. //zookeeper地址
  19. properties.setProperty("zookeeper.connect", "192.168.50.43:2181");
  20. //消费者的groupId
  21. properties.setProperty("group.id", "flink-connector");
  22. //实例化Consumer类
  23. FlinkKafkaConsumer<String> flinkKafkaConsumer = new FlinkKafkaConsumer<>(
  24. "test001",
  25. new SimpleStringSchema(),
  26. properties
  27. );
  28. //指定从最新位置开始消费,相当于放弃历史消息
  29. flinkKafkaConsumer.setStartFromLatest();
  30. //通过addSource方法得到DataSource
  31. DataStream<String> dataStream = env.addSource(flinkKafkaConsumer);
  32. //从kafka取得字符串消息后,分割成单词,统计数量,窗口是5秒
  33. dataStream
  34. .flatMap(new Splitter())
  35. .keyBy(0)
  36. .timeWindow(Time.seconds(5))
  37. .sum(1)
  38. .print();
  39. env.execute("Connector DataSource demo : kafka");
  40. }
  41. }
  1. 确保kafka的topic已经创建,将Kafka240运行起来,可见消费消息并进行单词统计的功能是正常的:



5. 接收kafka字符串消息的实战已经完成,接下来试试JSON格式的消息;

实战JSON消息处理

  1. 接下来要接受的JSON格式消息,可以被反序列化成bean实例,会用到JSON库,我选择的是gson;
  2. 在pom.xml增加gson依赖:
  1. <dependency>
  2. <groupId>com.google.code.gson</groupId>
  3. <artifactId>gson</artifactId>
  4. <version>2.8.5</version>
  5. </dependency>
  1. 增加类Student.java,这是个普通的Bean,只有id和name两个字段:
  1. package com.bolingcavalry;
  2. public class Student {
  3. private int id;
  4. private String name;
  5. public int getId() {
  6. return id;
  7. }
  8. public void setId(int id) {
  9. this.id = id;
  10. }
  11. public String getName() {
  12. return name;
  13. }
  14. public void setName(String name) {
  15. this.name = name;
  16. }
  17. }
  1. 增加类StudentSchema.java,该类是DeserializationSchema接口的实现,将JSON反序列化成Student实例时用到:
  1. ackage com.bolingcavalry.connector;
  2. import com.bolingcavalry.Student;
  3. import com.google.gson.Gson;
  4. import org.apache.flink.api.common.serialization.DeserializationSchema;
  5. import org.apache.flink.api.common.serialization.SerializationSchema;
  6. import org.apache.flink.api.common.typeinfo.TypeInformation;
  7. import java.io.IOException;
  8. public class StudentSchema implements DeserializationSchema<Student>, SerializationSchema<Student> {
  9. private static final Gson gson = new Gson();
  10. /**
  11. * 反序列化,将byte数组转成Student实例
  12. * @param bytes
  13. * @return
  14. * @throws IOException
  15. */
  16. @Override
  17. public Student deserialize(byte[] bytes) throws IOException {
  18. return gson.fromJson(new String(bytes), Student.class);
  19. }
  20. @Override
  21. public boolean isEndOfStream(Student student) {
  22. return false;
  23. }
  24. /**
  25. * 序列化,将Student实例转成byte数组
  26. * @param student
  27. * @return
  28. */
  29. @Override
  30. public byte[] serialize(Student student) {
  31. return new byte[0];
  32. }
  33. @Override
  34. public TypeInformation<Student> getProducedType() {
  35. return TypeInformation.of(Student.class);
  36. }
  37. }
  1. 新增类Kafka240Bean.java,作用是连接broker,对收到的JSON消息转成Student实例,统计每个名字出现的数量,窗口依旧是5秒:
  1. package com.bolingcavalry.connector;
  2. import com.bolingcavalry.Splitter;
  3. import com.bolingcavalry.Student;
  4. import org.apache.flink.api.common.functions.MapFunction;
  5. import org.apache.flink.api.common.serialization.SimpleStringSchema;
  6. import org.apache.flink.api.java.tuple.Tuple2;
  7. import org.apache.flink.streaming.api.datastream.DataStream;
  8. import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
  9. import org.apache.flink.streaming.api.windowing.time.Time;
  10. import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
  11. import java.util.Properties;
  12. public class Kafka240Bean {
  13. public static void main(String[] args) throws Exception {
  14. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
  15. //设置并行度
  16. env.setParallelism(2);
  17. Properties properties = new Properties();
  18. //broker地址
  19. properties.setProperty("bootstrap.servers", "192.168.50.43:9092");
  20. //zookeeper地址
  21. properties.setProperty("zookeeper.connect", "192.168.50.43:2181");
  22. //消费者的groupId
  23. properties.setProperty("group.id", "flink-connector");
  24. //实例化Consumer类
  25. FlinkKafkaConsumer<Student> flinkKafkaConsumer = new FlinkKafkaConsumer<>(
  26. "test001",
  27. new StudentSchema(),
  28. properties
  29. );
  30. //指定从最新位置开始消费,相当于放弃历史消息
  31. flinkKafkaConsumer.setStartFromLatest();
  32. //通过addSource方法得到DataSource
  33. DataStream<Student> dataStream = env.addSource(flinkKafkaConsumer);
  34. //从kafka取得的JSON被反序列化成Student实例,统计每个name的数量,窗口是5秒
  35. dataStream.map(new MapFunction<Student, Tuple2<String, Integer>>() {
  36. @Override
  37. public Tuple2<String, Integer> map(Student student) throws Exception {
  38. return new Tuple2<>(student.getName(), 1);
  39. }
  40. })
  41. .keyBy(0)
  42. .timeWindow(Time.seconds(5))
  43. .sum(1)
  44. .print();
  45. env.execute("Connector DataSource demo : kafka bean");
  46. }
  47. }
  1. 在测试的时候,要向kafka发送JSON格式字符串,flink这边就会给统计出每个name的数量:



至此,内置connector的实战就完成了,接下来的章节,我们将要一起实战自定义DataSource;

欢迎关注公众号:程序员欣宸

微信搜索「程序员欣宸」,我是欣宸,期待与您一同畅游Java世界...

https://github.com/zq2599/blog_demos

Flink的DataSource三部曲之二:内置connector的更多相关文章

  1. Flink的DataSource三部曲之一:直接API

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  2. Flink的DataSource三部曲之三:自定义

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  3. Flink on Yarn三部曲之二:部署和设置

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  4. ASP.NET Core 2.1 : 十二.内置日志、使用Nlog将日志输出到文件

    应用离不开日志,虽然现在使用VS有强大的调试功能,开发过程中不复杂的情况懒得输出日志了(想起print和echo的有木有),但在一些复杂的过程中以及应用日常运行中的日志还是非常有用. ASP.NET ...

  5. 菜鸟日记之JSP二 内置对象的理解

    ·最近学习JSP了,对编程和网络又有了一些理解.无论是现实中人与人的交流,还是网络世界的接触,都是在相互表达自己的意思让别人知道,并理解对方的信息.然后我们知道的事情不断的变多,会又交杂出新的内容,不 ...

  6. 模拟Springboot二:内置tomcat

    既然要将tomcat内置到项目中,并且能够成功的启动项目就要知道 tomcat  做了哪些事情 ,那么就必须先搞明白 一个 普通的web项目是如何被我们本地配置的tomcat启动并运行的 (1). 先 ...

  7. python之字典二 内置方法总结

    Python字典包含了以下内置方法: clear()函数用于删除字典内所有元素 dict1 = {, 'Class': 'First'} print('the start len %d' % len( ...

  8. ASP 基础二 内置对象

    一 Request 二 Response 三 Application 四 Session 五 Server <script language="vbscript" runat ...

  9. day0318装饰器和内置函数

    一.装饰器 1.装饰器: 解释:装饰器的本事就是一个函数,不改动主代码的情况下,增加新功能.返回值也是一个函数对象. 2.装饰器工作过程 import time def func(): print(' ...

随机推荐

  1. 错误: 在类中找不到 main 方法, 请将 main 方法定义为: &#160; &#160;public static void main(String[] args) 否则 JavaFX 应用程序类必须扩展javafx.application.Application 。

    昨天在eclipse编写JAVA程序时,遇到一个问题: 错误: 在类中找不到 main 方法, 请将 main 方法定义为:    public static void main(String[] a ...

  2. C# 读取路径的各种方式

    //1.获取模块的完整路径. string path1 = System.Diagnostics.Process.GetCurrentProcess().MainModule.FileName; // ...

  3. Github 太狠了,居然把 "master" 干掉了!

    前段时间栈长有看到 Github 和 master 分支变更的新闻,当时没有注意细节,直到今天我创建仓库时: 看了半天感觉有点不对劲啊... 怎么 master 不见了,之前默认主干分支名称都是叫 m ...

  4. 一文看懂YOLO v3

    论文地址:https://pjreddie.com/media/files/papers/YOLOv3.pdf论文:YOLOv3: An Incremental Improvement YOLO系列的 ...

  5. shell-脚本的建立和执行

    1. shell脚本的建立和执行  1) shell脚本的建立 在linux系统中,shell脚本(bash shell程序)通常是在编辑器(如vi/vim)中编写,由unix/linux命令.bas ...

  6. devops-持续集成管理之SonarQube

    1. devops-持续集成管理之SonarQube  1) 代码质量七宗罪 编码规范:是否遵守了编码规范,遵循了最佳实践. 潜在的BUG:可能在最坏情况下出现问题的代码,以及存在安全漏洞的代码. 文 ...

  7. 手撸ORM浅谈ORM框架之基础篇

    好奇害死猫 一直觉得ORM框架好用.功能强大集众多优点于一身,当然ORM并非完美无缺,任何事物优缺点并存!我曾一度认为以为使用了ORM框架根本不需要关注Sql语句如何执行的,更不用关心优化的问题!!! ...

  8. linq 整理(前序)

    前言 对linq进行整理,分为前序.中序和后序. 前序就是一些简单的概念和模拟. 中序的话就是深挖一些思想. 后序对其进行解刨. 正文 语言集成查询 (LINQ) 是一系列直接将查询功能集成到 C# ...

  9. 拦截导弹简单版——线性dp

    题目描述 某国为了防御敌国的导弹袭击,发展出一种导弹拦截系统.但是这种导弹拦截系统有一个缺陷:虽然它的第一发炮弹能够到达任意的高度,但是以后每一发炮弹都不能高于前一发的高度.某天,雷达捕捉到敌国的导弹 ...

  10. CVE-2009-0927-Adobe Reader缓冲区溢出漏洞分析

    0x00概述: 此漏洞的成因是由于Adobe Reader在处理PDF文档中所包含的JavaScript脚本时的Collab对象的getlcon()方式不正确处理输入的参数,而产生的缓冲区溢出,成功利 ...