deepspeed与pytorch_lighting

2024-09-07

使用 PyTorch Lightning 将深度学习管道速度提高 10 倍

前言本文介绍了如何使用 PyTorch Lightning 构建高效且快速的深度学习管道,主要包括有为什么优化深度学习管道很重要.使用 PyTorch Lightning 加快实验周期的六种方法.以及实验总结. 当 Alex Krizhevsky.Ilya Sutskever 和 Geoffrey Hinton 在 2012 年设计 AlexNet 时,训练 6000 万参数模型需要五到六天的时间.八年后的 2020 年,微软 DeepSpeed 团队在不到 44 分钟的时间内成功训练

互联网巨头们的 SRE 运维实践「GitHub 热点速览 v.21.27」

作者:HelloGitHub-小鱼干本周大热点无疑是前几天 GitHub 发布的 Copilot,帮你补全代码,给你的注释提出建议,预测你即将使用的代码组件-如此神奇的 AI 技术,恰巧本周微软也开源了他们的机器学习入门课程,你在 12 周之内完成 24 堂课程即可入门机器学习.除此之外,本周的特点主题之一 DevOps 和 SRE,包括 Google.百度在内的多家科技公司在本周特推给出了他们的最佳实践. 以下内容摘录自微博@HelloGitHub 的 GitHub Trending 及 H

公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾

7 月 9 日,GOTC 2021 全球开源技术峰会上海站与 WAIC 世界人工智能大会共同举办,峰会聚焦 AI 与云原生两大以开源驱动的前沿技术领域,邀请国家级研究机构与顶级互联网公司的一线技术专家,为参会的开发者和技术爱好者带来了最硬的行业技术干货,提供了一个难得的技术交流平台. 在本次会议上,腾讯云高级工程师高策进行了题为"公有云上构建云原生 AI 平台的探索与实践"的技术分享,介绍了 AI 类业务在公有云上的现状以及相应的技术选型和面临的问题.最后通过分析开源社区和业界的趋势,

[源码解析] 深度学习流水线并行Gpipe(1)---流水线基本实现

[源码解析] 深度学习流水线并行Gpipe(1)---流水线基本实现目录 [源码解析] 深度学习流水线并行Gpipe(1)---流水线基本实现 0x00 摘要 0x01 概述 1.1 什么是GPipe 1.2 挑战 0x02 并行机制 2.1 机制分类与权衡 2.1.1 数据并行 2.1.2 模型并行 2.1.3 流水线并行 2.2 如何使用 0x03 Pytorch 手动指定并行方式 3.1 基础知识 3.2 特点 3.3 基本用法 3.4 将模型并行化应用于现有模块 3.5 通过流水线输入

[源码解析] 深度学习流水线并行 GPipe(3) ----重计算

[源码解析] 深度学习流水线并行 GPipe(3) ----重计算目录 [源码解析] 深度学习流水线并行 GPipe(3) ----重计算 0x00 摘要 0x01 概述 1.1 前文回顾 1.2 Gradient checkpointing 0x02 背景知识 2.1 求导如何工作 2.2 梯度Checkpoint 2.3 论文内容 2.3.1 主要论文 2.3.2 论文 Training Deep Nets with Sublinear Memory Cost 2.3.2.1 主要思路 2

ML2021 | (腾讯)PatrickStar：通过基于块的内存管理实现预训练模型的并行训练

前言目前比较常见的并行训练是数据并行,这是基于模型能够在一个GPU上存储的前提,而当这个前提无法满足时,则需要将模型放在多个GPU上.现有的一些模型并行方案仍存在许多问题,本文提出了一种名为PatrickStar的异构训练系统.PatrickStar通过以细粒度方式管理模型数据来更有效地使用异构内存,从而克服了这些缺点. 本文附上了PatrickStar的使用示例.PatrickStar与模型定义无关,在PyTorch脚本上添加几行代码可以带来端到端的加速. 本文来自公众号CV技术指南

[源码解析] PyTorch 分布式之 ZeroRedundancyOptimizer

[源码解析] PyTorch 分布式之 ZeroRedundancyOptimizer 目录 [源码解析] PyTorch 分布式之 ZeroRedundancyOptimizer 0x00 摘要 0x01 历史 1.1 Github说明 1.2 解析 0x02 背景知识 2.1 ZeRO 2.2 Fairscale 的 ZeRO 实现 2.3 Optimizer State Sharding (OSS) 2.3.1 训练流程 2.3.2 最佳实践 2.3.3 性能说明 0x03 如何使用 3.

[论文翻译] 分布式训练 Parameter sharding 之 ZeRO

[论文翻译] 分布式训练 Parameter sharding 之 ZeRO 目录 [论文翻译] 分布式训练 Parameter sharding 之 ZeRO 0x00 摘要 0x01 综述 1.1 挑战 1.1.1 显存效率 1.1.2 计算效率 1.2 权衡 1.2.1 数据并行 1.2.2 模型并行 1.2.3 流水线并行 1.3 通过 3D 并行实现内存和计算效率 1.4 3D 并行如何利用每种并行性 0x02 引论 2.1 原文摘要 2.2 原文引论 2.2.1 优化模型状态 2.2

[论文翻译] 分布式训练 Parameter Sharding 之 Google Weight Sharding

[论文翻译] 分布式训练 Parameter sharding 之 Google Weight Sharding 目录 [论文翻译] 分布式训练 Parameter sharding 之 Google Weight Sharding 0x00 摘要 0x01 引文 0x02 XLA背景知识 2.1 All-reduce. 2.2 算子融合 0x03 权重更新分片 3.1 All-reduce分解 3.2 挑战 0x04 图转换 4.1 分片表示 4.1.1 数据格式化 4.1.2 Non-ele

[源码分析] Facebook如何训练超大模型---(1)

[源码分析] Facebook如何训练超大模型---(1) 目录 [源码分析] Facebook如何训练超大模型---(1) 0x00 摘要 0x01 简介 1.1 FAIR & FSDP 1.2 大规模训练计算能力需求 0x02 FSDP 如何工作 2.1 全参数分片 2.2 比对 2.3 梳理 2.3.1 思路 2.3.2 流程步骤 0x03 How to use FSDP 3.1 在语言模型中使用FSDP 3.2 在计算机视觉模型之中使用FSDP 3.3 在PyTorch Lightnin

[源码分析] Facebook如何训练超大模型 --- (3)

[源码分析] Facebook如何训练超大模型 --- (3) 目录 [源码分析] Facebook如何训练超大模型 --- (3) 0x00 摘要 0x01 ZeRO-Offload 1.1 设计原则 1.2 ZeRO 0x02 卸载策略 2.1 数据流图 2.2 限制CPU计算 2.3 最小化计算量 2.4 最大化内存节约 2.5 唯一最优化策略 2.6 ZeRO-Offload Schedule 2.6.1 单机计划 2.6.2 多节点计划 0x03 FairScale Offload 使

deepspeed与pytorch_lighting

热门专题