Pytorch单机多卡训练

2024-09-02

Pytorch多卡训练

前一篇博客利用Pytorch手动实现了LeNet-5,因为在训练的时候,机器上的两张卡只用到了一张,所以就想怎么同时利用起两张显卡来训练我们的网络,当然LeNet这种层数比较低而且用到的数据集比较少的神经网络是没有必要两张卡来训练的,这里只是研究怎么调用两张卡. 现有方法在网络上查找了多卡训练的方法,总结起来就是三种: nn.DataParallel pytorch-encoding distributedDataparallel 第一种方法是pytorch自带的多卡训练的方法,但是从方法的名

使用Pytorch进行多卡训练

当一块GPU不够用时,我们就需要使用多卡进行并行训练.其中多卡并行可分为数据并行和模型并行.具体区别如下图所示: 由于模型并行比较少用,这里只对数据并行进行记录.对于pytorch,有两种方式可以进行数据并行:数据并行(DataParallel, DP)和分布式数据并行(DistributedDataParallel, DDP). 在多卡训练的实现上,DP与DDP的思路是相似的: 1.每张卡都复制一个有相同参数的模型副本. 2.每次迭代,每张卡分别输入不同批次数据,分别计算梯度. 3.DP与DD

Pytorch使用分布式训练，单机多卡

pytorch的并行分为模型并行.数据并行左侧模型并行:是网络太大,一张卡存不了,那么拆分,然后进行模型并行训练. 右侧数据并行:多个显卡同时采用数据训练网络的副本. 一.模型并行二.数据并行数据并行的操作要求我们将数据划5分成多份,然后发送给多个 GPU 进行并行的计算. 注意:多卡训练要考虑通信开销的,是个trade off的过程,不见得四块卡一定比两块卡快多少,可能是训练到四块卡的时候通信开销已经占了大头下面是一个简单的示例.要实现数据并行,第一个方法是采用 nn.parallel

TensorFlow分布式部署【单机多卡】

让TensorFlow飞一会儿面对大型的深度神经网络训练工程,训练的时间非常重要.训练的时间长短依赖于计算处理器也就是GPU,然而单个GPU的计算能力有限,利用多个GPU进行分布式部署,同时完成一个训练任务是一个很好的办法.对于caffe来说,由于NCCL的存在,可以直接在slover中指定使用的GPU.然而对于Tensorflow,虽然Contrib库中有NCCL,但是我并没有找到相关的例子,所以,还是靠双手成就梦想. 原理简介 TensorFlow支持指定相应的设备来完成相应的操作,所以如

Pytorch中多GPU训练指北

前言在数据越来越多的时代,随着模型规模参数的增多,以及数据量的不断提升,使用多GPU去训练是不可避免的事情.Pytorch在0.4.0及以后的版本中已经提供了多GPU训练的方式,本文简单讲解下使用Pytorch多GPU训练的方式以及一些注意的地方. 这里我们谈论的是单主机多GPUs训练,与分布式训练不同,我们采用的主要Pytorch功能函数为DataParallel而不是DistributedParallel,后者为多主机多GPUs的训练方式,但是在实际任务中,两种使用方式也存在一部分交集.

计图(Jittor) 1.1版本：新增骨干网络、JIT功能升级、支持多卡训练

计图(Jittor) 1.1版本:新增骨干网络.JIT功能升级.支持多卡训练深度学习框架-计图(Jittor),Jittor的新版本V1.1上线了.主要变化包括: 增加了大量骨干网络的支持,增强了辅助转换脚本的能力,降低用户开发和移植模型的难度. JIT(动态编译)功能升级,可支持高性能的自定义算子开发,并降低了用户开发自定义算子的难度. 新增分布式功能,用户无需修改代码,只需要修改启动命令,单卡版本的训练程序可以直接无缝部署到多卡甚至多机上. 此外,Jittor还新增支持了大量神经网络算子,

[源码解析] PyTorch 分布式之弹性训练(2)---启动&单节点流程

[源码解析] PyTorch 分布式之弹性训练(2)---启动&单节点流程目录 [源码解析] PyTorch 分布式之弹性训练(2)---启动&单节点流程 0x00 摘要 0x01 重要概念 0x02 分布式运行 2.1 方式改变 2.1.1 原有方式 2.1.2 目前方式 2.2 部署 2.3 示例 2.3.1 单节点多worker启动 2.3.2 容错方式启动 2.3.3 弹性方式启动 0x03 启动脚本 3.1 参数定义 3.2 相关函数/变量 world_size,rank _p

[源码解析] PyTorch 分布式之弹性训练(3)---代理

[源码解析] PyTorch 分布式之弹性训练(3)---代理目录 [源码解析] PyTorch 分布式之弹性训练(3)---代理 0x00 摘要 0x01 总体背景 1.1 功能分离 1.2 Rendezvous 0x02 Agent 总体逻辑 2.1 功能 2.2 工作基础 2.3 部署 2.4 基类 0x03 Worker 3.1 Worker 定义 3.2 WorkerGroup 3.3 WorkerState 0x04 SimpleElasticAgent 4.1 总体运行 4.2

MINIST深度学习识别：python全连接神经网络和pytorch LeNet CNN网络训练实现及比较（三）

版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 在前两篇文章MINIST深度学习识别:python全连接神经网络和pytorch LeNet CNN网络训练实现及比较(一).MINIST深度学习识别:python全连接神经网络和pytorch LeNet CNN网络训练实现及比较(二)中,采用全连接神经网络(784-300-10),分别用非深度学习框架和基于pytorch实现,训练结果相当. 这里采用卷积神经网络(CNN)中著名的LeNet-5网

pytorch：EDSR 生成训练数据的方法

Pytorch:EDSR 生成训练数据的方法引言 Winter is coming 正文 pytorch提供的DataLoader 是用来包装你的数据的工具. 所以你要将自己的 (numpy array 或其他) 数据形式装换成 Tensor, 然后再放进这个包装器中. 使用 DataLoader 有什么好处呢? 就是他们帮你有效地迭代数据, 举例: import torch import torch.utils.data as Data #utils是torch中的一个模块,Data是进行小

[源码解析] PyTorch 分布式之弹性训练(1) --- 总体思路

[源码解析] PyTorch 分布式之弹性训练(1) --- 总体思路目录 [源码解析] PyTorch 分布式之弹性训练(1) --- 总体思路 0x00 摘要 0x01 痛点 0x02 难点 0x03 TorchElastic 3.1 历史 3.1.1 PyTorch 1.7 3.1.2 PyTorch 1.9 3.2 设计理念 3.2.1 基本功能 3.2.2 新设计概述 3.2.3 bare-bones 3.3 小结 0x04 问题 4.1 VS Horovod 4.2 TE 问题 0

[源码解析] PyTorch 分布式之弹性训练(4)---Rendezvous 架构和逻辑

[源码解析] PyTorch 分布式之弹性训练(4)---Rendezvous 架构和逻辑目录 [源码解析] PyTorch 分布式之弹性训练(4)---Rendezvous 架构和逻辑 0x00 摘要 0x01 总体背景 0x02 基本概念 2.1 Barrier 2.2 排他性(Exclusivity) 2.3 一致性(Consistency) 2.4 容错(Fault-tolerance) 2.5 共享键值存储 2.6 等待worker和rendezvous关闭 2.7 DynamicR

[源码解析] PyTorch 分布式之弹性训练(5)---Rendezvous 引擎

[源码解析] PyTorch 分布式之弹性训练(5)---Rendezvous 引擎目录 [源码解析] PyTorch 分布式之弹性训练(5)---Rendezvous 引擎 0x00 摘要 0x01 前言 1.1 总体系统 1.2 Rendezvous 1.3 解耦 0x02 引擎实现 2.1 基类 2.2 分布式操作引擎 2.2.1 定义 2.2.2 调用 2.2.2.1 _RendezvousKeepAliveOp 2.2.2.2 _RendezvousCloseOp 2.2.2.3 _

[源码解析] PyTorch 分布式之弹性训练(6)---监控/容错

[源码解析] PyTorch 分布式之弹性训练(6)---监控/容错目录 [源码解析] PyTorch 分布式之弹性训练(6)---监控/容错 0x00 摘要 0x01 总体逻辑 1.1 Node集群角度 1.2 Agent总体逻辑图 1.3 监控角度 0x02 多进程 2.1 启动workers 2.1.1 start_processes 2.1.2 RunResult 2.1 TE 使用 2.2 PContext 2.3 MultiprocessContext 2.3.1 start 2.

[源码解析] PyTorch 分布式之弹性训练(7)---节点变化

[源码解析] PyTorch 分布式之弹性训练(7)---节点变化目录 [源码解析] PyTorch 分布式之弹性训练(7)---节点变化 0x00 摘要 0x01 变化方式 1.1 Scale-down 1.2 Scale-up 0x02 节点加入 2.1 新节点加入 2.2 处理 Join 操作 2.2.1 run处理 2.2.2 Join操作 2.2.3 等待业务操作 2.3 Agent 处理 2.3.1 检查等待列表 2.3.3 重启worker组 2.3.3.1 _stop_work

pytorch识别CIFAR10：训练ResNet-34（自定义transform，动态调整学习率，准确率提升到94.33%）

版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 前面通过数据增强,ResNet-34残差网络识别CIFAR10,准确率达到了92.6. 这里对训练过程增加2个处理: 1.训练数据集做进一步处理:对图片随机加正方形马赛克. 2.每50个epoch,学习率降低0.1倍. 代码具体修改如下: 自定义transform: class Cutout(object): def __init__(self, hole_size): # 正方形马赛克的边长,像素

pytorch识别CIFAR10：训练ResNet-34（数据增强，准确率提升到92.6%）

版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 在前一篇中的ResNet-34残差网络,经过减小卷积核训练准确率提升到85%. 这里对训练数据集做数据增强: 1.对原始32*32图像四周各填充4个0像素(40*40),然后随机裁剪成32*32. 2.按0.5的概率水平翻转图片. 代码具体修改如下: transform_train = transforms.Compose([ # 对原始32*32图像四周各填充4个0像素(40*40),然后随机裁剪

pytorch识别CIFAR10：训练ResNet-34（微调网络，准确率提升到85%）

版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 在前一篇中的ResNet-34残差网络,经过训练准确率只达到80%. 这里对网络做点小修改,在最开始的卷积层中用更小(3*3)的卷积核,并且不缩小图片尺寸,相应的最后的平均池化的核改为4*4. 具体修改如下: class ResNet34(nn.Module): def __init__(self, block): super(ResNet34, self).__init__() # 初始卷积层核池

pytorch识别CIFAR10：训练ResNet-34（准确率80%）

版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com CNN的层数越多,能够提取到的特征越丰富,但是简单地增加卷积层数,训练时会导致梯度弥散或梯度爆炸. 何凯明2015年提出了残差神经网络,即Reset,并在ILSVRC-2015的分类比赛中获得冠军. ResNet可以有效的消除卷积层数增加带来的梯度弥散或梯度爆炸问题. ResNet的核心思想是网络输出分为2部分恒等映射(identity mapping).残差映射(residual mapping)

小白学习之pytorch框架(3)-模型训练三要素+torch.nn.Linear()

模型训练的三要素:数据处理.损失函数.优化算法数据处理(模块torch.utils.data) 从线性回归的的简洁实现-初始化模型参数(模块torch.nn.init)开始 from torch.nn import init # pytorch的init模块提供了多中参数初始化方法 init.normal_(net[0].weight, mean=0, std=0.01) #初始化net[0].weight的期望为0,标准差为0.01的正态分布tensor init.constant_(

Pytorch单机多卡训练

热门专题