转载自 huxihx，原文链接 Kafka与Flink集成

Apache Flink是新一代的分布式流式数据处理框架，它统一的处理引擎既可以处理批数据(batch data)也可以处理流式数据(streaming data)。在实际场景中，Flink利用Apache Kafka作为上下游的输入输出十分常见，本文将给出一个可运行的实际例子来集成两者。

一、目标

本例模拟中将集成Kafka与Flink：Flink实时从Kafka中获取消息，每隔10秒去统计机器当前可用的内存数并将结果写入到本地文件中。

二、环境准备

Apache Kafka 0.11.0.0
Apache Flink 1.3.1
Gradle 3.5 （版本号不是强要求）

本例运行在Windows环境，但可以很容易地移植到其他平台上。

三、创建Flink Streaming工程

本例使用Intellij IDEA作为项目开发的IDE。首先创建Gradle project，group为'huxihx.flink.demo'，artifact id为‘flink-kafka-demo’，version为‘1.0-SNAPSHOT’。整个项目结构如图所示：

四、增加kafka和kafka-connector依赖

增加下列gradle依赖：

compile group: 'org.apache.flink', name: 'flink-connector-kafka-0.10_2.11', version: '1.3.1'

compile group: 'org.apache.flink', name: 'flink-streaming-java_2.11', version: '1.3.1'

compile group: 'org.apache.kafka', name: 'kafka-clients', version: '0.11.0.0'

设置gradle打包依赖

jar {

    manifest {

        attributes(

                "Manifest-Version": 1.0,

                "Main-Class": "huxihx.KafkaMessageStreaming")

    }

    from { configurations.compile.collect { it.isDirectory() ? it : zipTree(it) } }

    into('assets') {

        from 'assets'

    }

}

五、启动Flink环境（本例使用local测试环境）

F:\SourceCode\flink-1.3.1

> bin\start-local.bat

Starting Flink job manager. Webinterface by default on http://localhost:8081/.

Don't close this batch window. Stop job manager by pressing Ctrl+C.

六、启动Kafka单节点集群

启动Zookeeper：

cd F:\SourceCode\zookeeper

> bin\zkServer.cmd

启动Kafka broker：

> cd F:\SourceCode\kafka_1

> set JMX_PORT=9999

> bin\windows\kafka-server-start.bat F:\\SourceCode\\configs\\server.properties

七、代码开发

代码主要由两部分组成：

MessageSplitter类、MessageWaterEmitter类和KafkaMessageStreaming类：Flink streaming实时处理Kafka消息类
KafkaProducerTest类和MemoryUsageExtrator类：构建Kafka测试消息

本例中，Kafka消息格式固定为：时间戳,主机名,当前可用内存数。其中主机名固定设置为machine-1，而时间戳和当前可用内存数都是动态获取。由于本例只会启动一个Kafka producer来模拟单台机器发来的消息，因此在最终的统计结果中只会统计machine-1这一台机器的内存。下面我们先来看flink部分的代码实现。

MessageSplitter类（将获取到的每条Kafka消息根据“，”分割取出其中的主机名和内存数信息）

public class MessageSplitter implements FlatMapFunction<String, Tuple2<String, Long>> {

    @Override

    public void flatMap(String value, Collector<Tuple2<String, Long>> out) throws Exception {

        if (value != null && value.contains(",")) {

            String[] parts = value.split(",");

            out.collect(new Tuple2<>(parts[1], Long.parseLong(parts[2])));

        }

    }

}

MessageWaterEmitter类（根据Kafka消息确定Flink的水位）

public class MessageWaterEmitter implements AssignerWithPunctuatedWatermarks<String> {

    @Nullable

    @Override

    public Watermark checkAndGetNextWatermark(String lastElement, long extractedTimestamp) {

        if (lastElement != null && lastElement.contains(",")) {

            String[] parts = lastElement.split(",");

            return new Watermark(Long.parseLong(parts[0]));

        }

        return null;

    }

    @Override

    public long extractTimestamp(String element, long previousElementTimestamp) {

        if (element != null && element.contains(",")) {

            String[] parts = element.split(",");

            return Long.parseLong(parts[0]);

        }

        return 0L;

    }

}

KafkaMessageStreaming类（Flink入口类，封装了对于Kafka消息的处理逻辑。本例每10秒统计一次结果并写入到本地文件）

public class KafkaMessageStreaming {

    public static void main(String[] args) throws Exception {

        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.enableCheckpointing(5000); // 非常关键，一定要设置启动检查点！！

        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

        Properties props = new Properties();

        props.setProperty("bootstrap.servers", "localhost:9092");

        props.setProperty("group.id", "flink-group");

        FlinkKafkaConsumer010<String> consumer =

                new FlinkKafkaConsumer010<>(args[0], new SimpleStringSchema(), props);

        consumer.assignTimestampsAndWatermarks(new MessageWaterEmitter());

        DataStream<Tuple2<String, Long>> keyedStream = env

                .addSource(consumer)

                .flatMap(new MessageSplitter())

                .keyBy(0)

                .timeWindow(Time.seconds(10))

                .apply(new WindowFunction<Tuple2<String, Long>, Tuple2<String, Long>, Tuple, TimeWindow>() {

                    @Override

                    public void apply(Tuple tuple, TimeWindow window, Iterable<Tuple2<String, Long>> input, Collector<Tuple2<String, Long>> out) throws Exception {

                        long sum = 0L;

                        int count = 0;

                        for (Tuple2<String, Long> record: input) {

                            sum += record.f1;

                            count++;

                        }

                        Tuple2<String, Long> result = input.iterator().next();

                        result.f1 = sum / count;

                        out.collect(result);

                    }

                });

        keyedStream.writeAsText(args[1]);

        env.execute("Flink-Kafka demo");

    }

}

实现了这些代码之后我们已然可以打包进行部署了，不过在其之前我们先看下Kafka producer测试类的实现——该类每1秒发送一条符合上面格式的Kafka消息供下游Flink集群消费。

MemoryUsageExtrator类（很简单的工具类，提取当前可用内存字节数）

public class MemoryUsageExtrator {

    private static OperatingSystemMXBean mxBean =

            (OperatingSystemMXBean) ManagementFactory.getOperatingSystemMXBean();

    /**

     * Get current free memory size in bytes

     * @return  free RAM size

     */

    public static long currentFreeMemorySizeInBytes() {

        return mxBean.getFreePhysicalMemorySize();

    }

}

KafkaProducerTest类（发送Kafka消息）

public class KafkaProducerTest {

    public static void main(String[] args) throws Exception {

        Properties props = new Properties();

        props.put("bootstrap.servers", "localhost:9092");

        props.put("acks", "all");

        props.put("retries", 0);

        props.put("batch.size", 16384);

        props.put("linger.ms", 1);

        props.put("buffer.memory", 33554432);

        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        Producer<String, String> producer = new KafkaProducer<>(props);

        int totalMessageCount = 10000;

        for (int i = 0; i < totalMessageCount; i++) {

            String value = String.format("%d,%s,%d", System.currentTimeMillis(), "machine-1", currentMemSize());

            producer.send(new ProducerRecord<>("test", value), new Callback() {

                @Override

                public void onCompletion(RecordMetadata metadata, Exception exception) {

                    if (exception != null) {

                        System.out.println("Failed to send message with exception " + exception);

                    }

                }

            });

            Thread.sleep(1000L);

        }

        producer.close();

    }

    private static long currentMemSize() {

        return MemoryUsageExtrator.currentFreeMemorySizeInBytes();

    }

}

八、部署Flink jar包

1. 打包Flink jar包

> cd flink-kafka-demo

> gradle clean build

生成的jar包在项目目录下的build/libs/下，本例中是flink-kafka-demo-1.0-SNAPSHOT.jar

2. 部署jar包

> bin\flink.bat run -c huxihx.KafkaMessageStreaming  F:\\Projects\\flink-kafka-demo\\build\\libs\\flink-kafka-demo-1.0-SNAPSHOT.jar test F:\\temp\result.txt

KafkaMessageStreaming类接收两个命令行参数，第一个是Kafka topic名字，第二个是输出文件路径

部署成功之后，可以在Flink控制台(本例中是http://localhost:8081/)中看到job已成功部署，如下图所示：

3. 运行KafkaProducerTest

运行Kafka producer，给Flink job创建输入数据，然后启动一个终端，监控输出文件的变化，

> cd F:\temp

> tail -f result.txt

(machine-1,3942129078)

(machine-1,3934864179)

(machine-1,4044071321)

(machine-1,4091437056)

(machine-1,3925701836)

(machine-1,3753678438)

(machine-1,3746314649)

......

可以看到，Flink每隔10s就会保存一条新的统计记录到result.txt文件中，该记录会统计主机名为machine-1的机器在过去10s的平均可用内存字节数。

总结

本文给出了一个可运行的Flink + Kafka的项目配置及代码实现。值得注意的是，上面例子中用到的Flink Kafka connector使用了Kafka新版本consumer的API，因此不再需要连接Zookeeper信息。

Kafka设计解析（十八）Kafka与Flink集成的更多相关文章

Kafka设计解析（八）- Exactly Once语义与事务机制原理
原创文章,首发自作者个人博客,转载请务必将下面这段话置于文章开头处. 本文转发自技术世界,原文链接 http://www.jasongj.com/kafka/transaction/ 写在前面的话本 ...
Kafka设计解析（八）Exactly Once语义与事务机制原理
转载自技术世界,原文链接 Kafka设计解析(八)- Exactly Once语义与事务机制原理本文介绍了Kafka实现事务性的几个阶段——正好一次语义与原子操作.之后详细分析了Kafka事务机制 ...
Kafka设计解析
Kafka剖析(一):Kafka背景及架构介绍 Kafka设计解析(二):Kafka High Availability (上) Kafka设计解析(三):Kafka High Availabilit ...
Kafka设计解析（十三）Kafka消费组(consumer group)
转载自 huxihx,原文链接 Kafka消费组(consumer group) 一直以来都想写一点关于kafka consumer的东西,特别是关于新版consumer的中文资料很少.最近Kafka ...
Kafka设计解析（五）- Kafka性能测试方法及Benchmark报告
本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/2015/12/31/KafkaColumn5_kafka_benchmark 摘要本文主要介绍了如何利用 ...
揭秘Kafka高性能架构之道 - Kafka设计解析（六）
原创文章,同步首发自作者个人博客.转载请务必在文章开头处以超链接形式注明出处http://www.jasongj.com/kafka/high_throughput/ 摘要上一篇文章<Kafk ...
流式处理的新贵 Kafka Stream - Kafka设计解析（七）
原创文章,转载请务必将下面这段话置于文章开头处. 本文转发自技术世界,原文链接 http://www.jasongj.com/kafka/kafka_stream/ Kafka Stream背景 Ka ...
Kafka设计解析（六）- Kafka高性能架构之道
本文从宏观架构层面和微观实现层面分析了Kafka如何实现高性能.包含Kafka如何利用Partition实现并行处理和提供水平扩展能力,如何通过ISR实现可用性和数据一致性的动态平衡,如何使用NIO和 ...
Kafka设计解析（七）- Kafka Stream
本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream.接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以 ...
[Big Data - Kafka] Kafka设计解析（五）：Kafka Benchmark
性能测试及集群监控工具 Kafka提供了非常多有用的工具,如Kafka设计解析(三)- Kafka High Availability (下)中提到的运维类工具——Partition Reassign ...

随机推荐

通过UA判断，对滚动条样式进行不同的操作
浏览器滚动条的默认样式比较丑,有些情况下,又不能直接overflow:hidden掉. 本文阐述如何通过 document.styleSheets[0].insertRule 简单的实现pc端和移动端 ...
php写入文件fwrite() 函数用法
在php中,php fwrite() 函数是用于写入文件(可安全用于二进制文件).说的简单点,就是在一个文件中,添加新的内容,本篇文章收集总结了几篇关于php写入文件fwrite() 函数用法的总结, ...
<Android 基础（二十五）> View Animation
简介视图动画,主要包括位移,透明度,旋转和缩放,View本身的属性并没有发生变化,只是在这个视图上添加一些渐变的效果,所以总体而言,视图动画只能实现一些简单的动画效果,属性动画功能更强大. 使用 r ...
如何使用CSS进行网页布局（HTML/CSS）
什么叫做布局? 又称为版式布局,是网页UI设计师将有限的视觉元素进行有机的排列组合. 题目:假设高度已知,请写出三栏布局,其中左栏和右栏宽度各为300px,中间自适应 1.浮动布局 <!DOCT ...
【Java】解析xml
xml: <?xml version="1.0" encoding="GB2312"?> <RESULT> <VALUE> ...
ubuntu下配置JDK7环境变量
ubuntu下JDK配置本质上和win是一样的: 1.去官网下载JDK7,找jdk-7u21-linux-i586.tar.gz并下载:http://www.oracle.com/technetwor ...
【Oracle】PL/SQL Developer使用技巧（持续更新中）
1.关键字自动大写在sql命令窗口中输入SQL语句时,想要关键字自动大写,引人注目该怎么办呢? 一步设置就可以达成了.点击Tools->Preference->Editor,看到截图中这 ...
windows多线程同步
概述任何单个应用程序都不能完全使该处理器达到满负荷.当一个线程遇到较长等待时间事件时,同步多线程还允许另一线程中的指令使用所有执行单元.例如,当一个线程发生高速缓存不命中,另一个线程可以继续执行.同 ...
iOS设计模式 - 享元
iOS设计模式 - 享元原理图说明享元模式使用共享物件,用来尽可能减少内存使用量以及分享资讯给尽可能多的相似物件:它适合用于只是因重复而导致使用无法令人接受的大量内存的大量物件.通常物件中的部分 ...
Linux优化远程SSH连接
优化远程SSH连接 1.Linxu和Window的ssh连接区别 Windom默认3389端口,管理员administartor 普通是guest Linux 默认22端口管理员root 普通一堆 ...

Kafka设计解析（十八）Kafka与Flink集成

目录