Apache DolphinScheduler 源码剖析之 Worker 容错处理流程

今天给大家带来的分享是 Apache DolphinScheduler 源码剖析之 Worker 容错处理流程

DolphinScheduler源码剖析之Worker容错处理流程

Worker容错流程是这样的：

1. 当 ZooKeeper 监听到有 Worker 节点挂了，就会去通知 Master 进行容错

2. 收到通知的 Master 会通过分布式锁去“抢”到容错的操作，拿到锁的 Master 开始进行容错处理。

3. 容错的流程如下：

3.1 通过已下线的 Worker 的地址和表示[正在运行]的状态数组获取需要容错的TaskInstance 列表。

3.2 遍历列表对每个 TaskInstance 进行处理：

3.2.1 判断这个 TaskInstance 是否需要容错，因为 Worker 宕机以后有可能被 Monitor 重启动成功，那么 Master 会继续给它分配任务，所以只有老 Worker 上正在运行的 TaskInstance 需要容错，【3.1】里面拿到的需要容错的TaskInstance 列表可能会存在新 Worker 所执行的任务

3.2.2 检查 Task 是否存在 YarnApplicationId，如果存在的话就把 Yarn 任务Kill 掉

3.2.3 将 TaskInstance 的状态更新为 NEED_FAULT_TOLERANCE，更新到数据库里面

Master的任务调度处理如下：

在 MasterExecThread 这个线程里面如果检测到任务的状态为 NEED_FAULT_TOLERANCE，会进行 Alert，同时会将任务放到 readyToSubmitTaskList，重新分发给 Worker 去运行

以上就是我对 DolphinScheduler 的 Worker 容错处理的分析，欢迎大家指正

【相关阅读】

DolphinScheduler 源码剖析之 Master 容错处理流程

预告

为了更好的可扩展性和性能，DolphinScheduler 的重构讨论将于本周五晚19:00 开始，欢迎感兴趣的伙伴参与

您知道么？

参与 DolphinScheduler 社区有非常多的参与贡献的方式，包括文档、翻译、答疑、测试、代码、会议分享等，此外也极其欢迎各种实践文章，DolphinScheduler开源社区非常期待您的参与。

贡献第一个PR(文档、代码) 我们也希望是简单的，试想如果是一个新人一上来就贡献1个改了几十个文件的 PR 将会对参与 review 的伙伴的心理造成多大的摧残，????

文档github地址：https://github.com/apache/incubator-dolphinscheduler-website

当然如果您酷爱coding，社区也是非常欢迎“show me the code"的。

戳原文，立刻奔向

DolphinScheduler 的 github 仓库一起玩耍，来个 star 先收藏也是好的

Apache DolphinScheduler 源码剖析之 Worker 容错处理流程的更多相关文章

DolphinScheduler 源码剖析之 Master 容错处理流程
点击上方蓝字关注 Apache DolphinScheduler Apache DolphinScheduler(incubating),简称"DS", 中文名 "海豚调 ...
Apache Spark源码剖析
Apache Spark源码剖析(全面系统介绍Spark源码,提供分析源码的实用技巧和合理的阅读顺序,充分了解Spark的设计思想和运行机理) 许鹏著 ISBN 978-7-121-25420- ...
《Apache Spark源码剖析》
Spark Contributor,Databricks工程师连城,华为大数据平台开发部部长陈亮,网易杭州研究院副院长汪源,TalkingData首席数据科学家张夏天联袂力荐1.本书全面.系统地介绍了 ...
07 flask源码剖析之用户请求过来流程
07 Flask源码之:用户请求过来流程目录 07 Flask源码之:用户请求过来流程 1.创建ctx = RequestContext对象 2. 创建app_ctx = AppContext对象 ...
Apache Kafka 源码剖析
Getting Start 下载 http://kafka.apache.org/ 优点和应用场景 Kafka消息驱动,符合发布-订阅模式,优点和应用范围都共通发布-订阅模式优点解耦合 : 两个应 ...
flask源码剖析系列（系列目录）
flask源码剖析系列(系列目录) 01 flask源码剖析之werkzurg 了解wsgi 02 flask源码剖析之flask快速使用 03 flask源码剖析之threading.local和高 ...
[Spark内核] 第32课：Spark Worker原理和源码剖析解密：Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等
本課主題 Spark Worker 原理 Worker 启动 Driver 源码鉴赏 Worker 启动 Executor 源码鉴赏 Worker 与 Master 的交互关系 [引言部份:你希望读者 ...
Spark Worker原理和源码剖析解密：Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等
本课主题 Spark Worker 原理 Worker 启动 Driver 源码鉴赏 Worker 启动 Executor 源码鉴赏 Worker 与 Master 的交互关系 Spark Worke ...
（升级版）Spark从入门到精通（Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端）
本课程主要讲解目前大数据领域最热门.最火爆.最有前景的技术——Spark.在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战.课 ...

随机推荐

ESP8266远程控制电子门
ESP8266远程控制电子门最前面介绍: 这是一个使用ESP8266 联网控制继电器,实现手机远程控制电子门,打开关闭,开关一次的物联网联手小项目附git地址:https://github.com ...
微服务效率工具 goctl 深度解析（上）
前言本文根据安前松的视频分享整理而来,视频回放地址如下: https://www.bilibili.com/video/BV1Hr4y1x7Ne goctl 的由来 1. goctl 的诞生 g ...
【多线程与高并发原理篇：4_深入理解synchronized】
1. 前言越是简单的东西,在深入了解后发现越复杂.想起了曾在初中阶段,语文老师给我们解说<论语>的道理,顺便给我们提了一句,说老子的无为思想比较消极,学生时代不要太关注.现在有了一定的生 ...
Python数据分析--Numpy常用函数介绍(6)--Numpy中矩阵和通用函数
在NumPy中,矩阵是 ndarray 的子类,与数学概念中的矩阵一样,NumPy中的矩阵也是二维的,可以使用 mat . matrix 以及 bmat 函数来创建矩阵. 一.创建矩阵 mat 函数创 ...
【zigbee无线通信模块步步详解】ZigBee3.0模块建立远程网络控制方法
本文以路灯控制应用为例,简述ZigBee3.0模块使用流程. 一.建立网络 1.通过USB转串口模块将出厂的ZigBee自组网模块连接,打开上位机软件"E180-ZG120A-Setting ...
Puppeteer学习笔记（2）- Puppeteer的安装
本文链接:https://www.cnblogs.com/hchengmx/p/11009849.html 1. node的下载安装由于puppeteer是nodejs的一个库,所以首先需要安装no ...
开发工具-MySQL下载地址
更新记录 2022年6月10日完善标题. 商业版下载商业版下载地址 https://edelivery.oracle.com/ 使用Oracle账号登录即可下载. 官方下载 https://dev ...
如何优雅的使用MyBatis？
本文目录什么是 MyBatis ? 映射器(mappers) typeAliases 类型别名减少类完全限制名的冗余处理枚举类型多行插入重用 SQL 代码段,消除重复字符串替换#{}和${ ...
Python调用腾讯云API，实现人脸年龄变化
网上看到了一个教程,调用腾讯云的人脸识别api和修改年龄api来实现模拟人物不同年龄的面貌但是大多数教程的代码都是想同的,估计是抄袭哪个人的关键是执行不了刚好周杰伦马上要发新专辑了,小改一下,拿杰 ...
Kali2019渗透环境配置
一.系统安装二.基础配置 # 配置源 vim /etc/apt/sources.list # kali官方源 deb http://http.kali.org/ kali-rolling main ...

Apache DolphinScheduler 源码剖析之 Worker 容错处理流程

Apache DolphinScheduler 源码剖析之 Worker 容错处理流程的更多相关文章

随机推荐

热门专题