一.运行架构

1.架构

基于yarn模式

0) Flink任务提交后,Client向HDFS上传Flink的Jar包和配置
1) 向Yarn ResourceManager提交任务,
2) ResourceManager分配Container资源,Yarn通知NodeManager启动ApplicationMaster,ApplicationMaster启动后加载Flink的Jar包和配置构建环境,然后启动JobManager
3) Client提交Job给Dispatcher
4) Dispatcher将JobGraph转发给JobManager
5) JobManager向Flink ResourceManager申请资源启动
6) Flink ResourceManager向Yarn申请资源TaskManager
7) Yarn ResourceManager分配Container资源。
8) Flink ResourceManager向通知资源所在的NodeMananger启动TaskManager
9) NodeManager加载Flink的jar和配置环境启动TaskManager,反向JobManager发送心跳包,等待任务
10) JobManager将执行的任务发送给TaskManager执行。

2.组件

Application Master 部分包含了三个组件:

1) Dispatcher

负责接收用户提供的作业,并且负责为这个新提交的作业启动一个新的 JobManager 组件

2) ResourceManager

负责资源的管理,在整个 Flink 集群中只有一个 ResourceManager

3) JobManager

负责管理作业的执行,在一个 Flink 集群中可能有多个作业同时执行,每个作业 都有自己的 JobManager 组件

还有其他组件:

1) TaskManager

主要负责执行具体的task任务,从JobManager处接收需要部署的 Task,部署 启 动后,与自己的上游建立连接,接收数据并处理。

2) Cluster Manager

集群管理器,比如Standalone、YARN、K8s等。

3) Client

提交Job的客户端,可以是运行在任何机器上(与 JobManager 环境连通即可)。提交Job后,Client可以结束进程(Streaming的任务),也可以不结束并等待结果返回。

二.核心概念

TaskManager 、 Slots

  • Taskmanager 类比 Spark 的Excutor

    1个Taskmanager,1个JVM进程,运行多个线程Task,Task的个数等于Slot的个数。类似Spark的Excutor。

  • Slot 类比 Spark的Core

    相同点

    1个Slot启动1个线程,Slot的个数决定最大并行的Task数

    不同点

    ①Slot多个Job共享,当空闲时其他Job可以使用(Yarn Session-Cluster模式);

    Core只能当前Job内部使用,其他Job无法使用

    ②TaskManager的内存均分给Slot,意味Slot是内存空间,不是Spark的Core。

Parallelism(并行度)

正在执行的task数,就是当前的并行度

  • 设置并行度

Spark:调用特殊算子(repartition)或者Shuffle。

Flink:可以直接给算子设置并行度,或者全局设置

注意:某些数据源数据的采集是无法改变并行度,如Socket

某个算子并行度2那么这个算子对应得task会拆分成2个subtask,一个特定算子的subtask的个数被称之为其并行度(parallelism),一般情况下,一个流程序的并行度是其所有算子中最大的并行度。

Task 、Subtask

  • Task

可以理解为Spark的一个Stage中的并行度将不同算子的subtask组成的1个任务链,作为1个task执行

  • Subtask

可以理解为1个算子有2个并行度,那么这个算子所在的Task就会拆分成两个SubTask。

Operator Chains(任务链)

可以理解为Spark中的一个Stage的同一分区的多个转换算子在1个task运行。

任务链形成条件:one-to-one的数据传输并且并行度相同

ExecutionGraph(执行图)任务生成过程

①client生成Sream Graph(数据流图)

②client 根据Sream Graph(数据流图)满足one to one 就转换成操作链,转换为 JobGraph(任务图)

③client将JobGraph(任务图)提交给JobManager,JobManager根据JobGraph(任务图)生成ExecutionGraph(执行图),然后展开并行度,转换为物理执行图,提交给TaskManager运行。

提交流程

通用的提交流程

基于yarn的提交流程

Flink(二)【架构原理,组件,提交流程】的更多相关文章

  1. Spark运行架构及作业提交流程

    1.yarn-cluster模式: (1)client客户端提交spark Application应用程序到yarn集群. (2)ResourceManager收到了请求后,在集群中选择一个NodeM ...

  2. Flink提交流程和架构

    一.Flink提交任务的流程 Flink任务提交后,Client向HDFS上传Flink的jar包和配置,之后向Yarn ResourceManager提交任务,ResourceManager分配Co ...

  3. 小记---------spark架构原理&主要组件和进程

    spark的主要组件和进程       driver (进程):     我们编写的spark程序就在driver上,由driver进程执行       master(进程):     主要负责资源的 ...

  4. Mybatis架构原理(二)-二级缓存源码剖析

    Mybatis架构原理(二)-二级缓存源码剖析 二级缓存构建在一级缓存之上,在收到查询请求时,Mybatis首先会查询二级缓存,若二级缓存没有命中,再去查询一级缓存,一级缓存没有,在查询数据库; 二级 ...

  5. SpringMVC架构&组件&执行流程

    SpringMVC架构: 组件: DIspatcherServlet:前端控制器.相当于mvc模式的c,是整个流程控制的中心,负责调用其他组件处理用户的请求,降低了组件之间的耦合性. HandlerM ...

  6. Flink源码剖析:Jar包任务提交流程

    Flink基于用户程序生成JobGraph,提交到集群进行分布式部署运行.本篇从源码角度讲解一下Flink Jar包是如何被提交到集群的.(本文源码基于Flink 1.11.3) 1 Flink ru ...

  7. [源码分析] 带你梳理 Flink SQL / Table API内部执行流程

    [源码分析] 带你梳理 Flink SQL / Table API内部执行流程 目录 [源码分析] 带你梳理 Flink SQL / Table API内部执行流程 0x00 摘要 0x01 Apac ...

  8. 大数据体系概览Spark、Spark核心原理、架构原理、Spark特点

    大数据体系概览Spark.Spark核心原理.架构原理.Spark特点 大数据体系概览(Spark的地位) 什么是Spark? Spark整体架构 Spark的特点 Spark核心原理 Spark架构 ...

  9. Flink资料(3)-- Flink一般架构和处理模型

    Flink一般架构和处理模型 本文翻译自General Architecture and Process Model ----------------------------------------- ...

随机推荐

  1. (转)linux下execl和system函数

    linux下,system函数和execl函数都是用于执行一条系统命令.今天仔细看了system函数的实现,想找出和execl函数的差别. 这里先进行一些背景知识补充: fork(创建一个新的进程): ...

  2. cf 11B Jumping Jack(贪心,数学证明一下,,)

    题意: 给一个数X. 起始点为坐标0.第1步跳1格,第2步跳2格,第3步跳3格,.....以此类推. 每次可以向左跳或向右跳. 问最少跳几步可以到坐标X. 思路: 假设X是正数. 最快逼近X的方法是不 ...

  3. 分布式事务(四)之TCC

    在电商领域等互联网场景下,传统的事务在数据库性能和处理能力上都暴露出了瓶颈.在分布式领域基于CAP理论以及BASE理论,有人就提出了柔性事务的概念.在业内,关于柔性事务,最主要的有以下四种类型:两阶段 ...

  4. git diff 比较差异

    说明 以下命令可以不指定 <filename>,表示对全部文件操作. 命令涉及和 Git本地仓库对比的,均可指定 commit 的版本. HEAD 最近一次 commit HEAD^ 上次 ...

  5. JSON Parse error: Unexpected identifier "object";stringToAnyType报错 uni-app

    只限于uni 的局限问题,博主的报错是因为初始化某些关键数据在uni的  onLoad生命周期  和  onReady生命周期里面初始化,导致数据加载时出现个别报错的BUG JSON Parse er ...

  6. 大一C语言学习笔记(11)---编程篇--写一个程序,可以获取从键盘上输入的的三个数,并能够判断是否可以以这三个数字作为边长来构成一个三角形,如果可以的话,输出此三角形的周长及面积,要求 0 bug;

    考核内容: 写一个程序,可以获取从键盘上输入的的三个数,并能够判断是否可以以这三个数字作为边长来构成一个三角形,如果可以的话,输出此三角形的周长及面积: 答案: #include<stdio.h ...

  7. C# 合并两个数组总结

    byte[] b1 = new byte[] { 1, 2, 3, 4, 5 }; byte[] b2 = new byte[] { 6, 7, 8, 9 }; byte[] b3 = new byt ...

  8. k8s网络模型与集群通信

    在k8s中,我们的应用会以pod的形式被调度到各个node节点上,在设计集群如何处理容器之间的网络时是一个不小的挑战,今天我们会从pod(应用)通信来展开关于k8s网络的讨论. 小作文包含如下内容: ...

  9. Qt Creator 源码学习笔记01,初识QTC

    阅读本文大概需要 4 分钟 Qt Creator 是一款开源的轻量级 IDE,整个架构代码全部使用 C++/Qt 开发而成,非常适合用来学习C++和Qt 知识,这也是我们更加深入学习Qt最好的方式,学 ...

  10. python实现对象测量

    目录: 问题,轮廓找到了,如何去计算对象的弧长与面积(闭合),多边形拟合,几何矩的计算等 (一)对象的弧长与面积 (二)多边形拟合 (三)几何矩的计算 (四)获取图像的外接矩形boundingRect ...