PyTorch Data Parrallel数据并行

  • 可选择:数据并行处理
  • 本文将学习如何用 DataParallel 来使用多 GPU。 通过 PyTorch 使用多个 GPU 非常简单。可以将模型放在一个 GPU:
  • device = torch.device("cuda:0")
  • model.to(device)
  • 可以复制所有的张量到 GPU:
  • mytensor = my_tensor.to(device)
  • 调用 my_tensor.to(device) 返回一个 my_tensor, 新的复制在GPU上,而不是重写 my_tensor。需要分配一个新的张量并且在 GPU 上使用这个张量。
  • 在多 GPU 中执行前馈,后继操作是非常自然的。尽管如此,PyTorch 默认只会使用一个 GPU。通过使用 DataParallel 让模型并行运行,可以很容易的在多 GPU 上运行操作。
  • model = nn.DataParallel(model)
  • 这是整个教程的核心,接下来将会详细讲解。 引用和参数
  • 引入 PyTorch 模块和定义参数
  • import torch
  • import torch.nn as nn
  • from torch.utils.data import Dataset, DataLoader
  • 参数
  • input_size = 5
  • output_size = 2
  • batch_size = 30
  • data_size = 100
  • 设备
  • device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
  • 实验(玩具)数据
  • 生成一个玩具数据。只需要实现 getitem.
  • classRandomDataset(Dataset):
  • def__init__(self, size, length):
  • self.len = length
  • self.data = torch.randn(length, size)
  • def__getitem__(self, index):
  • return self.data[index]
  • def__len__(self):
  • return self.len
  • rand_loader = DataLoader(dataset=RandomDataset(input_size, data_size),batch_size=batch_size, shuffle=True)
  • 简单模型
  • 做一个小 demo,模型只是获得一个输入,执行一个线性操作,然后给一个输出。可以使用 DataParallel   在任何模型(CNN, RNN, Capsule Net 等等.)
  • 放置了一个输出声明在模型中,检测输出和输入张量的大小。在 batch rank 0 中的输出。
  • classModel(nn.Module):
  • # Our model
  • def__init__(self, input_size, output_size):
  • super(Model, self).__init__()
  • self.fc = nn.Linear(input_size, output_size)
  • defforward(self, input):
  • output = self.fc(input)
  • print("\tIn Model: input size", input.size(),
  • "output size", output.size())
  • return output
  • 创建模型并且数据并行处理
  • 这是本文的核心。首先需要一个模型的实例,然后验证是否有多个 GPU。如果有多个 GPU,可以用 nn.DataParallel 来包裹模型。然后使用 model.to(device) 把模型放到多 GPU 中。
  • model = Model(input_size, output_size)
  • if torch.cuda.device_count() > 1:
  • print("Let's use", torch.cuda.device_count(), "GPUs!")
  • # dim = 0 [30, xxx] -> [10, ...], [10, ...], [10, ...] on 3 GPUs
  • model = nn.DataParallel(model)
  • model.to(device)
  • 输出:
  • Let's use 2 GPUs!
  • 运行模型: 现在可以看到输入和输出张量的大小了。
  • for data in rand_loader:
  • input = data.to(device)
  • output = model(input)
  • print("Outside: input size", input.size(),
  • "output_size", output.size())
  • 输出:
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])
  • In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])
  • Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])
  • 结果:
  • 如果没有 GPU 或者只有一个 GPU,当获取 30 个输入和 30 个输出,模型将期望获得 30 个输入和 30 个输出。但是如果有多个 GPU ,会获得这样的结果。
  • 多 GPU
  • 如果有 2 个GPU,会看到:
  • # on 2 GPUs
  • Let's use 2 GPUs!
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])
  • In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])
  • Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])
  • 如果有 3个GPU,会看到:
  • Let's use 3 GPUs!
  • In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
  • In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
  • In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
  • In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
  • In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
  • In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
  • In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
  • Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])
  • 如果有 8个GPU,会看到:
  • Let's use 8 GPUs!
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
  • In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
  • Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  • In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
  • In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
  • In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
  • In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
  • In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
  • Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])
  • 总结
  • 数据并行自动拆分了数据并,将任务单发送到多个 GPU 上。当每一个模型都完成任务之后,DataParallel 收集并且合并这些结果,然后再返回。

PyTorch Data Parrallel数据并行的更多相关文章

  1. PyTorch Tutorials 5 数据并行(选读)

    %matplotlib inline 数据并行(选读) Authors: Sung Kim and Jenny Kang 在这个教程里,我们将学习如何使用 DataParallel 来使用多GPU. ...

  2. [源码解析] PyTorch分布式优化器(2)----数据并行优化器

    [源码解析] PyTorch分布式优化器(2)----数据并行优化器 目录 [源码解析] PyTorch分布式优化器(2)----数据并行优化器 0x00 摘要 0x01 前文回顾 0x02 DP 之 ...

  3. [源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler

    [源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler 目录 [源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampl ...

  4. [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader

    [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader 目录 [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader 0x00 摘要 0x01 ...

  5. Data Pump(数据抽取)介绍

    从10g开始,Oracle提供更高效的Data Pump(即expdp/impdp)来进行数据的导入和导出,老的exp/imp还可以用,但已经不建议使用.注意:expdp/impdp和exp/imp之 ...

  6. 深度神经网络DNN的多GPU数据并行框架 及其在语音识别的应用

    深度神经网络(Deep Neural Networks, 简称DNN)是近年来机器学习领域中的研究热点,产生了广泛的应用.DNN具有深层结构.数千万参数需要学习,导致训练非常耗时.GPU有强大的计算能 ...

  7. 【深度学习系列2】Mariana DNN多GPU数据并行框架

    [深度学习系列2]Mariana DNN多GPU数据并行框架  本文是腾讯深度学习系列文章的第二篇,聚焦于腾讯深度学习平台Mariana中深度神经网络DNN的多GPU数据并行框架.   深度神经网络( ...

  8. Oracle 11g R2 Backup Data Pump(数据泵)之expdp/impdp工具

    Oracle Data Pump(以下简称数据泵)是Oracle 10g开始提供的一种数据迁移工具,同时也被广大DBA用来作为数据库的逻辑备份工具和体量较小的数据迁移工具.与传统的数据导出/导入工具, ...

  9. .Net并行编程(一)-TPL之数据并行

    前言 许多个人计算机和工作站都有多个CPU核心,可以同时执行多个线程.利用硬件的特性,使用并行化代码以在多个处理器之间分配工作. 应用场景 文件批量上传 并行上传单个文件.也可以把一个文件拆成几段分开 ...

随机推荐

  1. P7518 & 省选联考2021 宝石

    这是一篇极其简单连像我这样省三参加不了省选的蒟蒻都能看懂的题解 前置知识: 倍增LCA  二分 栈 题意 PS:这是一篇完全面向初学者的题解,会非常细,大佬请无视 题目传送门 没有思路的时候, 我们往 ...

  2. Selenium3自动化测试【16】元素定位之Tag

    @ 目录 1. 通过tag name定位Bing案例 2. 通过tag name定位一组元素案例 3.[测试全系列视频课程]请点击我哦..... tag name方法是通过对HTML页面中tag na ...

  3. UVA10905孩子们的游戏

    题意:       给你n个数字,让你用这n个数组组成一个最大的数字并输出来. 思路:       这个题目看完第一反应就是直接按照字符串排序,然后轻轻松松写完,交上去直接wa了,为什么会wa呢?感觉 ...

  4. R3抹掉加载的DLL

    R3抹掉加载的DLL 原理类似于获取Kernel32.dll加载地址,知道这个东西也是在看获取Kernel32.dll地址的时候在网上搜索学习资料,无意中看到的这个东西.这个挺有用,结合着HiJack ...

  5. 指定的服务已标记为删除 寒江孤钓<<windows 内核安全编程>> 学习笔记

    运行cmd:"sc delete first" 删除我们的服务之后, 再次创建这个服务的时候出现 "指定的服务已标记为删除"的错误, 原因是我们删除服务之前没有 ...

  6. Spring Cloud Alibaba(9)---Sentinel概述

    Sentinel概述 随着微服务的流行,服务和服务之间的稳定性变得越来越重要.Sentinel是面向分布式服务架构的流量控制组件,主要以流量为切入点,从限流.流量整形.熔断降级.系统自适应保护.热点防 ...

  7. Kubernetes入门,使用minikube 搭建本地k8s 环境

    这是一篇 K8S 的 HelloWorld,在学习K8S官方文档时搭建环境搭建的一个记录,照着文档下来还是比较顺利的. 一.安装kubectl 下载 kubectl curl -LO "ht ...

  8. 通过Dapr实现一个简单的基于.net的微服务电商系统(十一)——一步一步教你如何撸Dapr之自动扩/缩容

    上一篇我们讲到了dapr提供的bindings,通过绑定可以让我们的程序轻装上阵,在极端情况下几乎不需要集成任何sdk,仅需要通过httpclient+text.json即可完成对外部组件的调用,这样 ...

  9. 四种方式带你层层递进解剖算法---hash表不一定适合寻找重复数据

    一.题目描述 找出数组中重复的数字 > 在一个长度为 n 的数组 nums 里的所有数字都在 0-n-1 的范围内.数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次. ...

  10. Mybatis-Plus的应用场景及注入SQL原理分析

    一.背景 1.1 传统Mybatis的弊端 1.1.1 场景描述 假设有两张表:一张商品表.一张订单表,具体表的字段如下: 现有如下需求: 分别根据id查询商品表和订单表所有信息 根据支付状态和通知状 ...