1 多GPU原理 单GPU时,思路很简单,前向.后向都在一个GPU上进行,模型参数更新时只涉及一个GPU. 多GPU时,有模型并行和数据并行两种情况. 模型并行指模型的不同部分在不同GPU上运行. 数据并行指不同GPU上训练数据不同,但模型是同一个(相当于是同一个模型的副本). TensorFlow支持的是数据并行. 数据并行的原理:CPU负责梯度平均和参数更新,在GPU上训练模型的副本. 多GPU并行计算的过程如下: 1)模型副本定义在GPU上; 2)对于每一个GPU, 都是从CPU获得数据,…