[源码解析] PyTorch分布式优化器(3)---- 模型并行 目录 [源码解析] PyTorch分布式优化器(3)---- 模型并行 0x00 摘要 0x01 前文回顾 0x02 单机模型 2.1 基本用法 2.2 将模型并行应用到现有模块 2.3 问题与方案 2.3.1 目前状况 2.3.2 解决方案 2.4 通过流水线输入加速 0x03 分布式问题和方案 3.1 思路 3.2 PyTorch 的思路 3.2.1 四大天王 3.2.2 逻辑关系 0x04 PyTorch 分布式优化器 4.…
[源码解析] PyTorch 分布式(18) --- 使用 RPC 的分布式管道并行 目录 [源码解析] PyTorch 分布式(18) --- 使用 RPC 的分布式管道并行 0x00 摘要 0x01 综述 1.1 先决条件 1.2 基础知识 0x02 启动 0x03 定义训练循环 0x04 将 ResNet50 模型分片拼接成一个模块 0x05 对 ResNet50 模型进行分区 0xFF 参考 0x00 摘要 在前面的文章之中,我们已经学习了PyTorch 分布式的基本模块,接下来我们通过…
[源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行 目录 [源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行 0x00 摘要 0x01 前文回顾 0x02 初始化 2.1 全局变量 2.2 初始化代码 0x03 切分样例 3.1 注释 3.2 切分情况 3.3 切分策略 3.4 实验 0x04 起始状态 4.1 GPU 状况 4.2 符号说明 4.3 初始分组 0x05 Tensor model-parallel 5.1 分组…
[源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush 目录 [源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush 0x00 摘要 0x01 背景 0x02 论文 2.1 引论 2.2 背景 2.3 流水线权重问题 2.3.1 问题1 2.3.2 问题2 2.3.3 问题3 2.4 PipeDream-2BW 系统设计 2.4.1 GPipe 2.4.2 Double-Buffered Weight Updates (…
[源码解析] 深度学习流水线并行Gpipe(1)---流水线基本实现 目录 [源码解析] 深度学习流水线并行Gpipe(1)---流水线基本实现 0x00 摘要 0x01 概述 1.1 什么是GPipe 1.2 挑战 0x02 并行机制 2.1 机制分类与权衡 2.1.1 数据并行 2.1.2 模型并行 2.1.3 流水线并行 2.2 如何使用 0x03 Pytorch 手动指定并行方式 3.1 基础知识 3.2 特点 3.3 基本用法 3.4 将模型并行化应用于现有模块 3.5 通过流水线输入…
[源码解析] 深度学习流水线并行之PopeDream(1)--- Profile阶段 目录 [源码解析] 深度学习流水线并行之PopeDream(1)--- Profile阶段 0x00 摘要 0x01 概述 1.1 前文回顾 1.2 目前问题 1.2.1 数据并行 1.2.2 模型并行 1.2.3 Gpipe 0x02 论文 2.1 方案概述 2.1.1 并行方式 2.1.2 1F1B 0x03 流水线 3.1 流水线改进 3.2 挑战 3.4 流水线划分算法 3.5 Profile 0x04…
[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现 目录 [源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现 0x00 摘要 0x01 并行Transformer层 1.1 初始化 1.2 前向传播 0x02 并行MLP 2.1 命名规范 2.2 MLP 代码 2.2.1 初始化 2.2.2 前向操作 0x03 ColumnParallelLinear 3.1 定义 3.2 初始化 3.2.1 切分size 3.2.2 初始化权重 3.3…
[源码解析] 并行分布式框架 Celery 之架构 (2) 目录 [源码解析] 并行分布式框架 Celery 之架构 (2) 0x00 摘要 0x01 上文回顾 0x02 worker的思考 2.1 worker的模式 2.1.1 Nginx模式 2.1.2 Celery 模式 2.1.2.1 模式 2.1.2.2 交互 2.2 worker 组成 2.2.1 task_pool 2.2.2 consumer 2.2.3 Scheduler 2.2.3.1 Beat 2.2.3.2 Timer…
[源码解析] 并行分布式框架 Celery 之架构 (1) 目录 [源码解析] 并行分布式框架 Celery 之架构 (1) 0x00 摘要 0x01 Celery 简介 1.1 什么是 Celery 1.2 场景 1.3 特性 1.4 区别 0x02 Celery的架构 2.1 组件 2.2 任务流程 2.3 架构图 0x03 Celery 设计推理 3.1 Celery 基本功能 3.2 Celery 辅助功能 3.3 如何划分 0x04 对 AMQP / Kombu 的封装 4.1 封装…
[源码解析] 并行分布式框架 Celery 之 worker 启动 (1) 目录 [源码解析] 并行分布式框架 Celery 之 worker 启动 (1) 0x00 摘要 0x01 Celery的架构 0x02 示例代码 0x03 逻辑概述 0x04 Celery应用 4.1 添加子command 4.2 入口点 4.3 缓存属性cached_property 0x05 Celery 命令 0x06 worker 子命令 0x07 Worker application 0xFF 参考 0x00…