Flink架构（二）- Flink中的数据传输

2. Flink中的数据传输

在一个运行的application中，它的tasks在持续交换数据。TaskManager负责做数据传输。TaskManager的网络组件首先从缓冲buffer中收集records，然后再发送。也就是说，records并不是一个接一个的发送，而是先放入缓冲，然后再以batch的形式发送。这个技术可以高效使用网络资源，并达到高吞吐。类似于网络或磁盘 I/O 协议中使用的缓冲技术。

这里需要注意的是：传输缓冲buffer中的记录，隐含表示的是，Flink的处理模型是基于微批处理的。

每个TaskManager有一组网络缓冲池（默认每个buffer是32KB），用于发送与接受数据。如发送端和接收端位于不同的TaskManager进程中，则它们需要通过操作系统的网络栈进行交流。流应用需要以管道的模式进行数据交换，也就是说，每对TaskManager会维持一个永久的TCP连接用于做数据交换。在shuffle连接模式下（多个sender与多个receiver），每个sender task需要向每个receiver task，此时TaskManager需要为每个receiver task都分配一个缓冲区。下图展示了此架构：

在上图中，有四个sender 任务，对于每个sender，都需要有至少四个network buffer用于向每个receiver发送数据。每个receiver都需要有至少四个buffer用于接收数据。TaskManager之间的buffer以多路复用的方式使用同一网络连接。为了提供平滑的数据管道型的数据交换，一个TaskManager必须能提供足够的缓冲，以服务所有并行的出入连接。对于shuffle或broadcast 连接，每个发送任务和每个接受任务之间都需要一个buffer。Flink的默认网络缓冲配置足够适用与小型与中型的集群任务。对于大型的集群任务，需要对此配置进行调优。

若sender与receiver任务都运行在同一个TaskManager进程，则sender任务会将发送的条目做序列化，并存入一个字节缓冲。然后将缓冲放入一个队列，直到队列被填满。Receiver任务从队列中获取缓冲，并反序列化输入的条目。所以，在同一个TaskManager内，任务之间的数据传输并不经过网络交互。

Flink采用了不同的技术用于减少tasks之间的沟通成本。在接下来的部分中，我们会讨论基于积分的（credit-based ）流控制与任务链（task chaining）。

基于积分的（Credit-Based ）流控制

通过网络发送单独的条目是一个并不高效的方式，并且会造成大量负载。使用缓冲技术可以更好的使用网络连接的带宽。在流处理场景中，缓冲的一个缺点是：它增加了延时，因为records需要先放入缓冲，而不是被立即传输。

Flink实现了一个credit-based 流控制机制，工作方式为：一个接收任务会授权给一个发送任务一些积分（credit），用于控制预留的缓冲区个数。当一个sender接收到了积分通知，它向会receiver发送 buffers（最多不超过被授权的数量）以及它的backlog大小（已经充满了并等待被发送的buffer数量）。Receiver使用预留的buffer处理接收到的数据，并使用sender的backlog大小作为下一次授权的积分数，提供给所有与它连接的senders。

Credit-based 流控制减少了延时，因为senders可以在receiver有足够的资源接受数据时，尽快向它发送数据。它在Flink中是一个重要的部分，助力Flink达到高吞吐与低延时。

任务链（task chaining）

Flink另一个优化技术称为任务链，用于（在某些情况下）减少本地通信的过载。为了满足任务链的条件，至少两个以上的operator必须配置为同一并行度，并且使用本地向前的（local forwad）方式连接。下图的operator管道即满足这些条件。它包含3个operators，全部被配置为并行度为2，并且以local-forward的方式连接：

下图描述了管道是如何以任务链的方式执行的。Operators的函数被融合成单个任务，并由一个单独的线程执行。一个function产生的records，通过使用一个简单的方法调用，被递交给下一个function。所以，这里在方法之间的records传递中，基本没有序列化以及通信消耗。

任务链可以极大减少本地task之间的通信成本，但是有时候在执行一个管道时，不使用任务链也是合理的。例如，将一个包含多个链式任务的长管道断开，或是将一个链分成两个任务，并将较为消耗资源的function调度到另一个slot上。这些都是合理的。下图描绘了同样一个执行的管道，但未使用任务链。所有function由一个单独的task，在它自身的线程中运行。

任务链默认是开启的。在“控制任务链”一节，我们会介绍如何为某个任务关闭任务链化，以及如何控制单个operator的链行为。

References:

Vasiliki Kalavri, Fabian Hueske. Stream Processing With Apache Flink. 2019

Flink架构（二）- Flink中的数据传输的更多相关文章

Flink入门（二）——Flink架构介绍
1.基本组件栈了解Spark的朋友会发现Flink的架构和Spark是非常类似的,在整个软件架构体系中,同样遵循着分层的架构设计理念,在降低系统耦合度的同时,也为上层用户构建Flink应用提供了丰富 ...
Flink架构、原理与部署测试
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能. 现有的开源计算方案,会把流处理和批处理作为 ...
Flink架构、原理与部署测试(转)
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能. 现有的开源计算方案,会把流处理和批处理作为 ...
Flink架构，源码及debug
序工作中用Flink做批量和流式处理有段时间了,感觉只看Flink文档是对Flink ProgramRuntime的细节描述不是很多, 程序员还是看代码最简单和有效.所以想写点东西,记录一下,如果能 ...
3、flink架构，资源和资源组
一.flink架构 1.1.集群模型和角色如上图所示:当 Flink 集群启动后,首先会启动一个 JobManger 和一个或多个的 TaskManager.由 Client 提交任务给 JobMa ...
flink架构介绍
前言 flink作为基于流的大数据计算引擎,可以说在大数据领域的红人,下面对flink-1.7的架构进行逻辑上的分析并和spark做了一些关键点的对比. 架构如图1,flink架构分为3个部分,cl ...
Flink架构分析之Standalone模式启动流程
概述 FLIP6 对Flink架构进行了改进,引入了Dispatcher组件集成了所有任务共享的一些组件:SubmittedJobGraphStore,LibraryCacheManager等,为了保 ...
Apache Flink vs Apache Spark——感觉二者是互相抄袭啊看谁的好就抄过来 Flink支持在runtime中的有环数据流，这样表示机器学习算法更有效而且更有效率
Apache Flink是什么 Flink是一款新的大数据处理引擎,目标是统一不同来源的数据处理.这个目标看起来和Spark和类似.没错,Flink也在尝试解决 Spark在解决的问题.这两套系统都在 ...
Flink架构和调度
1.Flink架构 Flink系统的架构与Spark类似,是一个基于Master-Slave风格的架构,如下图所示: Flink集群启动时,会启动一个JobManager进程.至少一个TaskMana ...

随机推荐

windows命令提示符常用命令
1.进入某个磁盘 c: 进入c盘 d: 进入d盘 2.返回到根目录 cd \ 3.查看当钱路径下的文件和文件夹 dir 4.清空窗口内容 cls 5.关闭窗口 exit 6.返回上一级目录 cd . ...
PWA - Manifest
manifest 在一个JSON文本文件中提供有关应用程序的信息(如名称,作者,图标和描述) manifest 的目的是将Web应用程序安装到设备的主屏幕部署一个 manifest <link ...
Codeforces Round #622 (Div. 2) C2 - Skyscrapers (hard version) 单调栈
从左往右扫,找到比第i个小的第一个数字,l[i] = l[last] + (i - last) * m[i],用单调栈O(n)维护这个过程,再从右往左扫,同理可以算出r数组,注意一下long long ...
为什么重写equals方法，还必须要重写hashcode方法
一.equals方法和hashcode的关系根据Object.hashCode的通用约定: 如果两个对象相同(equals方法返回true),那么hashcode也相等.(图1) 如果两个对象的ha ...
小白月赛22 J : 计算 A + B
J:计算 A + B 考察点 : 高精度,字符串坑点 : 字符串中可能全是数字,或者 + 超过 1 个,需要进行特殊判断析题得侃: 关于高精度的各种板子 Code: #include <ve ...
DFS-B - Dr. Evil Underscores
B - Dr. Evil Underscores Today, as a friendship gift, Bakry gave Badawy nn integers a1,a2,…,ana1,a2, ...
java学习笔记之IO编程—内存流、管道流、随机流
1.内存操作流之前学习的IO操作输入和输出都是从文件中来的,当然,也可以将输入和输出的位置设置在内存上,这就需要用到内存操作流,java提供两类内存操作流字节内存操作流:ByteArrayOutp ...
java性能分析 - CPU飙高分析工具
背景有处理过生产问题的同学基本都能遇到系统忽然缓慢,CPU突然飙升,甚至整个应用请求不可用.当出现这种情况下,在不影响数据准确性的前提下,我们应该尽快导出jstack和内存信息,然后 ...
git 命令总结
1.添加所有文件 git add . 2.添加某个文件 git add filename 3.commit 注释 git commit -m'commit 注释' 4.修改commit 注释 git ...
翻转引起 cocos studio 引擎与cocos2d 代码相同坐标显示不同
使用setFlippedX后,又改变锚点为1.此时代码中坐标需要相对于cocos studio 中增加它本身的width,因为(0.5,0.5)是相对于自己中点的翻转,不变坐标.而(1,0.5)是相对 ...

Flink架构（二）- Flink中的数据传输

Flink架构（二）- Flink中的数据传输的更多相关文章

随机推荐

热门专题