Flink中的算子操作

一、Connect

DataStream,DataStream -> ConnectedStream，连接两个保持他们类型的数据流，两个数据流被Connect之后，只是被放在了同一个流中，内部依然保持各自的数据和形式

不发生任何变化，两个流相互独立。

import org.apache.flink.streaming.api.scala._

object Connect {

  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    var stream01 = env.generateSequence(1,10)

    val stream = env.readTextFile("test001.txt")

    val stream02 = stream.flatMap(item => item.split(" ")).filter(item => item.equals("hadoop"))

    val streamConnect: ConnectedStreams[Long, String] = stream01.connect(stream02)

    //两个流各自处理各自的，互不干扰

    val stream03: DataStream[Any] = streamConnect.map(item => item * 2, item => (item,1L))

    stream03.print()

    env.execute("Connect")

  }

}

二、CoMap，CoFlatMap

ConnectedStreams -> DataStream：作用于ConnectedStream上，功能与map和flatMap一样，对ConnectedStram中的每一个Stream分别进行map和flatMap

三、Split

import org.apache.flink.streaming.api.scala._

object Split {

  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    val stream: DataStream[String] = env.readTextFile("test001.txt").flatMap(item => item.split(" "))

    val streamSplit: SplitStream[String] = stream.split(

      word =>

        ("hadoop".equals(word) match {

          case true => List("hadoop") //值等于hadoop的流加入到一个List中

          case false => List("other")//值不等于hadoop的流加入到一个List中

        })

    )

    //取出属于各自部分的流

    val value01: DataStream[String] = streamSplit.select("hadoop")

    val value02: DataStream[String] = streamSplit.select("other")

    value01.print()

    value02.print()

    env.execute("Split Job")

  }

}

四、Union

DataStream -> DataStream：对两个或者两个以上的DataStream进行union操作，产生一个包含所有DataStream元素的新的DataStream。

注意：如果你将一个DataStream跟它自己做union操作，在新的DataStream中，你将看到每一个元素都出现两次。

五、KeyBy（比较重要）

DataStream -> KeyedStream：输入必须是Tuple类型，逻辑地将一个流拆分成不相交的分区，每个分区包含具有相同key的元素，在内部以hash的形式实现的。

把所有相同key的数据聚合在一起

import org.apache.flink.api.java.tuple.Tuple

import org.apache.flink.streaming.api.scala._

object KeyBy {

  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    val stream: DataStream[String] = env.readTextFile("test001.txt").flatMap(item => item.split(" "))

    //将相同key数据进行聚合

    //同一个key的数据都划分到同一个分区中

    val streamKeyBy: KeyedStream[(String, Int), Tuple] = stream.map(item => (item,1)).keyBy(0)

    streamKeyBy.print()

    env.execute("KeyBy Job")

  }

}

六、Reduce

KeyedStream -> DataStream，一个分组数据流的聚合操作，合并当前的元素和上次聚合的结果，产生一个新的值，返回的流中包含每一次聚合的结果，

而不是只返回最后一次聚合的最终结果。

数据流如何在两个 transformation 组件中传输的？

一对一流（=spark窄依赖）：（比如source=>map过程）保持元素分区和排序

redistributing流（=spark宽依赖）：（map=>keyBy/window 之间，以及keyBy/window与sink之间）改变了流分区。

每一个算子任务根据所选的转换，向不同的目标子任务发送数据。

比如：keyBy，根据key的hash值重新分区、broadcast、rebalance（类似shuffle过程）。在一次 redistributing交换中，元素间排序，只针对发送方

的partition和接收partition方。最终到sink端的排序是不确定的。

Flink中的算子操作的更多相关文章

Flink学习（二）Flink中的时间
摘自Apache Flink官网最早的streaming 架构是storm的lambda架构分为三个layer batch layer serving layer speed layer 一.在s ...
Flink中案例学习--State与CheckPoint理解
1.State概念理解在Flink中,按照基本类型,对State做了以下两类的划分:Keyed State, Operator State. Keyed State:和Key有关的状态类型,它只能被 ...
Flink中API使用详细范例--window
Flink Window机制范例实录: 什么是Window?有哪些用途? 1.window又可以分为基于时间(Time-based)的window 2.基于数量(Count-based)的window ...
如何在 Apache Flink 中使用 Python API？
本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink PMC,阿里巴巴高级技术专家孙金城分享.重点为大家介绍 Flink Python API 的现状及未来规划, ...
老板让阿粉学习 flink 中的 Watermark，现在他出教程了
1 前言在时间 Time 那一篇中,介绍了三种时间概念 Event.Ingestin 和 Process, 其中还简单介绍了乱序 Event Time 事件和它的解决方案 Watermark 水位线 ...
Flink中的window、watermark和ProcessFunction
一.Flink中的window 1,window简述 window 是一种切割无限数据为有限块进行处理的手段.Window 是无限数据流处理的核心,Window 将一个无限的 stream 拆分成有 ...
Flink 中极其重要的 Time 与 Window 详细解析(深度好文，建议收藏)
前言 Flink 是流式的.实时的计算引擎上面一句话就有两个概念,一个是流式,一个是实时. 流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以 ...
理解Flink中的Task和SUBTASK
1.概念 Task(任务):Task是一个阶段多个功能相同的subTask 的集合,类似于Spark中的TaskSet. subTask(子任务):subTask是Flink中任务最小执行单元,是一个 ...
Flink的异步算子的原理及使用
1.简介 Flink的特点是高吞吐低延迟.但是Flink中的某环节的数据处理逻辑需要和外部系统交互,调用耗时不可控会显著降低集群性能.这时候就可能需要使用异步算子让耗时操作不需要等待结果返回就可以继续 ...

随机推荐

JAVA-Scaneer对象
Scanner对象我们可以通过scanner来获取用户的输入基本语法 Scanner s = new Scanner(System.in); nextLine():输入 import java.u ...
POJ3179 Corral the Cows题解
我就是个垃圾--一道水题能写这么长时间-- 首先看到题就想到了二维前缀和+二分边长,但地图边长10000,得离散化. 于是这个离散化就把我搞疯了,淦. 这反映出现在基础知识还是不牢固,相当不牢固. 复 ...
Xshell记录Linux连接操作日志遇到的坑
1.问题描述: 在Windows上,以前一直使用Secure CRT连接Linux主机进行远程操作,使用CRT的日志功能记录连接过程中的所有操作以及输出. 最近(2019-8-17)使用Xshell进 ...
记录一次HSDB的使用遇到的问题 No such type.
univese Unrecognized command. Try help... hsdb> universe Heap Parameters: Gen 0: eden [0x00000000 ...
create-react-app 创建的项目执行npm run eject后，运行报错
create-react-app 创建的项目执行npm run eject后,运行报错:Cannot find module '@babel/plugin-transform-react-jsx-so ...
intouch 开发源程序加密方法
在先前项目中,因为同行竞争被拷贝走了源程序代码,以至于被上司责备,故而亡羊补牢对intouch(10.1老版本进行源代码加密探索)整理方法如下. 1.intouch wondermarker打开源程序 ...
嵌套div的onClick事件问题
嵌套div的onClick事件问题我在下面的代码中的外层div中加了onClick事件,这样当鼠标点击这个div的时候就会跳转了.但是我在图片上加了一些其他效果,所以当鼠标点击中间的img时不能触发跳 ...
【LeetCode】133. 克隆图
133. 克隆图知识点:图:递归;BFS 题目描述给你无向连通图中一个节点的引用,请你返回该图的深拷贝(克隆). 图中的每个节点都包含它的值 val(int) 和其邻居的列表(list[No ...
Redis(6379)未授权访问
环境搭建打开kali终端输入命令 wget http://download.redis.io/releases/redis-3.2.0.tar.gz tar xzf redis-3.2.0.tar ...
Appium使用inspactor开始session报"Could not connect to server; are you sure it's running?"
appium在使用inspactor start session时提示:Could not connect to server; are you sure it's running?如下图解决方案为 ...

Flink中的算子操作

Flink中的算子操作的更多相关文章

随机推荐

热门专题