[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 目录 [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 0x00 摘要 0x01 启动 1.1 分布式启动 1.2 构造基础 1.2.1 获取模型 1.2.2 获取数据集 1.2.3 步进函数 1.2.3.1 广播数据 0x02 Pretrain 0x03 初始化 3.1 initialize_megatron 3.2 初始化分布式环境 3.3 初始化进程组全局变量 0x04 设置模型 4.1…