[源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练 目录 [源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练 0x00 摘要 0x01 总论 0x02 Sampler 2.1 PyTorch Distributed Optimizer 2.1.1 定义 2.1.2 问题点 2.2 ElasticSampler 2.2.1 定义 2.2.2 弹性方案 2.2.2.1 常规流程 2.2.2.2 异常处理 2.2.1 如何使用 2…
[源码解析] 深度学习分布式训练框架 Horovod --- (1) 基础知识 目录 [源码解析] 深度学习分布式训练框架 Horovod --- (1) 基础知识 0x00 摘要 0x01 分布式并行训练 1.1 分布式并行训练的必要 1.2 分布式训练 1.3 训练并行机制 1.3.1 三种机制 1.3.2 如何使用 1.4 数据并行训练 0x02 通信 & 架构 2.1 方法和架构 2.2 异步 vs 同步 0x03 具体架构 3.1 MapReduce 3.2 参数服务器 (PS) 3.…
[源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 目录 [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 0x00 摘要 0x01 Horovod 简介 0x02 Hovorod 机制概述 2.1 Horovod 机制 0x03 示例代码 3.1 摘要代码 3.2 horovodrun 0x04 运行逻辑 4.1 引入python文件 4.2 初始化 in python 4.2.1 引入SO库 4.2.1.1 SO库 4…
[源码解析] 深度学习分布式训练框架 horovod (4) --- 网络基础 & Driver 目录 [源码解析] 深度学习分布式训练框架 horovod (4) --- 网络基础 & Driver 0x00 摘要 0x01 引子 0x02 总体架构 2.1 get_local_interfaces 2.2 _driver_fn 2.3 获取路由接口 2.3.1 probe逻辑 2.3.2 等待函数 0x03 基础网络服务 3.1 继承关系 3.2 network.BasicServic…
[源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么 目录 [源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么 0x00 摘要 0x01 背景知识 1.1 分布式体系 1.2 并行任务通信 1.3 MPI 1.4 Open-MPI 1.5 MPI 使用问题 0x02 入口点 2.1 如何运行 2.2 horovodrun 2.3 run_commandline 2.4 非弹性训练 _run_st…
[源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 目录 [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 0x00 摘要 0x01 架构图 0x02 统一层 0x03 Horovod OP 类体系 3.1 基类 HorovodOp 3.2 派生类 AllreduceOp 3.3 适配类 MPIAllreduce 3.4 后台线程如何使用 3.4.1 具体collective 操作 3.4.2 调用不同类型的OP 3.4.3 取一个适配层…
[源码解析] 深度学习分布式训练框架 horovod (6) --- 后台线程架构 目录 [源码解析] 深度学习分布式训练框架 horovod (6) --- 后台线程架构 0x00 摘要 0x01 引子 0x02 设计要点 2.1 问题 2.2 方案 2.3 协调 2.3.1 设计 2.3.2 实现 2.4 Background Thread 2.4.1 设计 2.4.2 实现 0x03 辅助功能 3.1 如何判断是 coordinator 3.2 协调缓存&信息 3.2.1 计算共有 ten…
[源码解析] 深度学习分布式训练框架 horovod (7) --- DistributedOptimizer 目录 [源码解析] 深度学习分布式训练框架 horovod (7) --- DistributedOptimizer 0x00 摘要 0x01 背景概念 1.1 深度学习框架 1.2 Tensorflow Optimizer 0x02 总体架构 2.1 总体思路 3.2 总体调用关系 0x04 TensorFlow 1.x 4.1 _DistributedOptimizer 4.2 c…
[源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 目录 [源码解析] 深度学习分布式训练框架 horovod (8) --- on spark 0x00 摘要 0x01 Spark相关知识 1.1 为什么整合 Spark 1.2 Spark 简单架构 1.3 Pyspark 原理 1.3.1 架构修改 1.3.2 Driver端 1.3.3 Executor端 1.3.4 流程 0x02 机器学习 on Spark 2.1 机器学习的特点 2.2 机器学习…
[源码解析] 深度学习分布式训练框架 horovod (9) --- 启动 on spark 目录 [源码解析] 深度学习分布式训练框架 horovod (9) --- 启动 on spark 0x00 摘要 0x01 总体架构图 0x02 第一阶段 :Horovod 启动 2.1 Driver服务 :SparkDriverService 2.2 启动spark task : _make_spark_thread 2.3 等待 spark task 启动结束 2.3.1 _notify_and_…