关于多gpu训练,tf并没有给太多的学习资料,比较官方的只有:tensorflow-models/tutorials/image/cifar10/cifar10_multi_gpu_train.py 但代码比较简单,只是针对cifar做了数据并行的多gpu训练,利用到的layer.activation类型不多,针对更复杂网络的情况,并没有给出指导.自己摸了不少坑之后,算是基本走通了,在此记录下 一.思路 单GPU时,思路很简单,前向.后向都在一个GPU上进行,模型参数更新时只涉及一个GPU.多G…