【PyTorch深度学习60分钟快速入门】Part5：数据并行化

在本节中，我们将学习如何利用DataParallel使用多个GPU。

在PyTorch中使用多个GPU非常容易，你可以使用下面代码将模型放在GPU上：

model.gpu()

然后，你可以将所有张量拷贝到GPU上：

mytensor = my_tensor.gpu()

请注意，仅仅调用my_tensor.gpu()并不会将张量拷贝到GPU上，你需要将它指派给一个新的张量，然后在GPU上使用这个新张量。

在多个GPU上执行你的前向和后向传播是一件很自然的事情。然而，PyTorch默认情况下只会使用一个GPU。不过，通过利用DataParallel使你的模型并行地运行，这样你就能很容易地将操作运行在多个GPU上：

model = nn.DataParallel(model)

这正是本节的核心。下面，我们将更详细地分析该技术。

0x01 导入和参数

下面，导入PyTorch模块并定义相关参数：

import torch

import torch.nn as nn

from torch.autograd import Variable

from torch.utils.data import Dataset, DataLoader

# Parameters and DataLoaders

input_size = 5

output_size = 2

batch_size = 30

data_size = 100

0x02 虚拟数据集

创建一个虚拟的（随机的）数据集。你只需要实现__getitem__方法：

class RandomDataset(Dataset):

    def __init__(self, size, length):

        self.len = length

        self.data = torch.randn(length, size)

    def __getitem__(self, index):

        return self.data[index]

    def __len__(self):

        return self.len

rand_loader = DataLoader(dataset=RandomDataset(input_size, 100),batch_size=batch_size, shuffle=True)

0x03 简单模型

在该demo中，我们的模型只会接受一个输入，并进行一个线性操作，然后给出输出结果。然而，你可以在任何模型（CNN、RNN、Capsule Net等等）上使用DataParallel。

在模型内部我们添加了一个打印语句，以监控输入和输出的张量大小。请注意在rank 0批次时打印的内容：

class Model(nn.Module):

    # Our model

    def __init__(self, input_size, output_size):

        super(Model, self).__init__()

        self.fc = nn.Linear(input_size, output_size)

    def forward(self, input):

        output = self.fc(input)

        print("  In Model: input size", input.size(),

              "output size", output.size())

        return output

0x04 创建模型和数据并行化

这是本教程的核心部分。首先，我们需要创建一个模型实例，并检查我们是否拥有多个GPU。如果拥有多个GPU，那么可以使用nn.DataParallel来封装我们的模型。然后，利用model.gpu()将模型放到GPU上：

model = Model(input_size, output_size)

if torch.cuda.device_count() > 1:

  print("Let's use", torch.cuda.device_count(), "GPUs!")

  # dim = 0 [30, xxx] -> [10, ...], [10, ...], [10, ...] on 3 GPUs

  model = nn.DataParallel(model)

if torch.cuda.is_available():

   model.cuda()

0x05 运行模型

现在，我们可以查看输入与输出张量的大小：

for data in rand_loader:

    if torch.cuda.is_available():

        input_var = Variable(data.cuda())

    else:

        input_var = Variable(data)

    output = model(input_var)

    print("Outside: input size", input_var.size(),

          "output_size", output.size())

输出结果：

In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

  In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

  In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

  In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

0x06 结果

当我们将输入和输出都以30个作为批量大小时，正常情况下该模型会得到30并输出30。但如果你有多个GPU，那么你将会得到下面的结果：

2个GPU

如果你有2个GPU，你将看到：

# on 2 GPUs

Let's use 2 GPUs!

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])

    In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])

Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

3个GPU

如果你有3个GPU，你将看到：

Let's use 3 GPUs!

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

8个GPU

如果你有8个GPU，你将看到：

Let's use 8 GPUs!

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

0x07 总结

DataParallel会自动分割数据，并将作业顺序发送给多个GPU上的多个模型。在每个模型完成它们的作业之后，DataParallel会收集并合并结果，然后再返回给你。

关于并行计算的更多信息，可以阅读这里。