欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 本文是<Flink的DataSource三部曲>系列的第一篇,该系列旨在通过实战学习和了解Flink的DataSource,为以后的深入学习打好基础,由以下三部分组成: 直接API:即本篇,除了准备环境和工程,还学习了StreamExecutionEnvironment提供的用来创建数据来的…
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 本篇概览 本文是<Flink的DataSource三部曲>系列的第二篇,上一篇<Flink的DataSource三部曲之一:直接API>学习了StreamExecutionEnvironment的API创建DataSource,今天要练习的是Flink内置的connector,即…
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 本篇概览 本文是<Flink的DataSource三部曲>的终篇,前面都是在学习Flink已有的数据源功能,但如果这些不能满足需要,就要自定义数据源(例如从数据库获取数据),也就是今天实战的内容,如下图红框所示: Flink的DataSource三部曲文章链接 <Flink的DataS…
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 关于Flink on Yarn三部曲 本文是<Flink on Yarn三部曲>的第一篇,整个系列由以下三篇组成: 准备工作:搭建Flink on Yarn环境前,将所有硬件.软件资源准备好: 部署和设置:部署CDH和Flink,然后做相关设置 Flink实战:在Yarn环境提交Flink任…
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 本文是<Flink on Yarn三部曲>系列的第二篇,上一篇<Flink on Yarn三部曲之一:准备工作>已将所需的机器和文件准备完毕,可以部署CDH和Flink了: 全文链接 <Flink on Yarn三部曲之一:准备工作> < Flink on Ya…
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 本文是<Flink on Yarn三部曲>系列的终篇,先简单回顾前面的内容: <Flink on Yarn三部曲之一:准备工作>:准备好机器.脚本.安装包: <Flink on Yarn三部曲之二:部署和设置>:完成CDH和Flink部署,并在管理页面做好相关的设置:…
Apache Flink Apache Flink 是一个兼顾高吞吐.低延迟.高性能的分布式处理框架.在实时计算崛起的今天,Flink正在飞速发展.由于性能的优势和兼顾批处理,流处理的特性,Flink可能正在颠覆整个大数据的生态. DataSet API 首先要想运行Flink,我们需要下载并解压Flink的二进制包,下载地址如下:https://flink.apache.org/downloads.html 我们可以选择Flink与Scala结合版本,这里我们选择最新的1.9版本Apache…
动机 Flink提供了三种主要的sdk/API来编写程序:Table API/SQL.DataStream API和DataSet API.我们认为这个API太多了,建议弃用DataSet API,而使用Table API/SQL和DataStream API.当然,这说起来容易做起来难,所以在下面,我们将概述为什么我们认为太多的api对项目和社区有害.然后,我们将描述如何增强Table API/SQL和DataStream API以包含DataSet API的功能. 在本FLIP中,我们将不描…
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS等: 关于sink 下图来自Flink官方,红框中就是sink,可见实时数据从Source处开始,在Transformation阶段完成业务逻辑后在sink结束,因此sink可以用来处理计算结果,例如控制台输出或者保存数据库: 关于<Flink的sink实战>系列文章 本文是<Flink的s…
Flink使用 DataSet 和 DataStream 代表数据集.DateSet 用于批处理,代表数据是有限的:而 DataStream 用于流数据,代表数据是无界的.数据集中的数据是不可以变的,也就是说不能对其中的元素增加或删除.我们通过数据源创建 DataSet 或者 DataStream ,通过 map,filter 等转换(transform)操作对数据集进行操作产生新的数据集. 编写 Flink 程序一般经过一下几个步骤: 获得 execution 环境 创建输入数据 在数据集上进…