『开发技术』GPU训练加速原理（附KerasGPU训练技巧）

0.深入理解GPU训练加速原理

我们都知道用GPU可以加速神经神经网络训练（相较于CPU），具体的速度对比可以参看我之前写的速度对比博文： [深度应用]·主流深度学习硬件速度对比（CPU，GPU，TPU）

GPU是如何加速的呢？

我打算从两个方面来解答：

单个GPU较于CPU加速：

在训练网络中，其实大量的运算资源都消耗在了数值计算上面，大部分网络训练的过程都是1.计算loss，2.根据loss求梯度，3.再根据梯度更新参数（梯度下降原理）。无论在GPU还是CPU中，都是不断重复123步。但是由于CPU是通用计算单元（并不擅长数值运行），而GPU特长是图像处理（数值计算）。所以GPU更加适合训练网络，从而起到加速效果。

多GPU较于单GPU加速：

一般在GPU训练中，同一个GPU中，batch_size的大小，决定训练的速度，batch_size越小，训练一轮所需的步数（data_len/batch_size）就会越大，从而花费时间越多。

下面介绍下使用多GPU数据并行加速原理：

假设一台机器上有k块GPU。给定需要训练的模型，每块GPU及其相应的显存将分别独立维护一份完整的模型参数。在模型训练的任意一次迭代中，给定一个随机小批量，我们将该批量中的样本划分成k份并分给每块显卡的显存一份。然后，每块GPU将根据相应显存所分到的小批量子集和所维护的模型参数分别计算模型参数的本地梯度。接下来，我们把k块显卡的显存上的本地梯度相加，便得到当前的小批量随机梯度。之后，每块GPU都使用这个小批量随机梯度分别更新相应显存所维护的那一份完整的模型参数。下图描绘了使用2块GPU的数据并行下的小批量随机梯度的计算。

使用2块GPU的数据并行下的小批量随机梯度的计算

我们回忆下梯度下降的过程，1.计算loss，2.根据loss求梯度，3.再根据梯度更新参数。

使用上述的多GPU数据并行方法，可以理解为把batch_size扩大了k倍，从而总的时间缩短为了k分之1，实现了多GPU计算训练。

其实每一个GPU上网络的参数都是相同的，因为都是从相同的loss做的更新。

1.如何在 GPU 上运行 Keras?

如果你以 TensorFlow 或 CNTK 后端运行，只要检测到任何可用的 GPU，那么代码将自动在 GPU 上运行。

如果你以 Theano 后端运行，则可以使用以下方法之一：

方法 1: 使用 Theano flags。

THEANO_FLAGS=device=gpu,floatX=float32 python my_keras_script.py

"gpu" 可能需要根据你的设备标识符（例如gpu0，gpu1等）进行更改。

方法 2: 创建 .theanorc: 指导教程

方法 3: 在代码的开头手动设置 theano.config.device, theano.config.floatX：

import theano

theano.config.device = 'gpu'

theano.config.floatX = 'float32'

2.如何在多 GPU 上运行 Keras 模型?

我们建议使用 TensorFlow 后端来执行这项任务。有两种方法可在多个 GPU 上运行单个模型：数据并行和设备并行。

在大多数情况下，你最需要的是数据并行。

数据并行

数据并行包括在每个设备上复制一次目标模型，并使用每个模型副本处理不同部分的输入数据。Keras 有一个内置的实用函数 keras.utils.multi_gpu_model，它可以生成任何模型的数据并行版本，在多达 8 个 GPU 上实现准线性加速。

有关更多信息，请参阅 multi_gpu_model 的文档。这里是一个快速的例子：

from keras.utils import multi_gpu_model

# 将 `model` 复制到 8 个 GPU 上。

# 假定你的机器有 8 个可用的 GPU。

parallel_model = multi_gpu_model(model, gpus=8)

parallel_model.compile(loss='categorical_crossentropy',

                       optimizer='rmsprop')

# 这个 `fit` 调用将分布在 8 个 GPU 上。

# 由于 batch size 为 256，每个 GPU 将处理 32 个样本。

parallel_model.fit(x, y, epochs=20, batch_size=256)

设备并行

设备并行性包括在不同设备上运行同一模型的不同部分。对于具有并行体系结构的模型，例如有两个分支的模型，这种方式很合适。

这种并行可以通过使用 TensorFlow device scopes 来实现。这里是一个简单的例子：

# 模型中共享的 LSTM 用于并行编码两个不同的序列

input_a = keras.Input(shape=(140, 256))

input_b = keras.Input(shape=(140, 256))

shared_lstm = keras.layers.LSTM(64)

# 在一个 GPU 上处理第一个序列

with tf.device_scope('/gpu:0'):

    encoded_a = shared_lstm(tweet_a)

# 在另一个 GPU上 处理下一个序列

with tf.device_scope('/gpu:1'):

    encoded_b = shared_lstm(tweet_b)

# 在 CPU 上连接结果

with tf.device_scope('/cpu:0'):

    merged_vector = keras.layers.concatenate([encoded_a, encoded_b],

                                             axis=-1)

3.参考

1.http://zh.d2l.ai/chapter_computational-performance/multiple-gpus.html

2.https://keras.io/zh/getting-started/faq/#how-can-i-run-a-keras-model-on-multiple-gpus