背景 [作者:DeepLearningStack,阿里巴巴算法工程师,开源TensorFlow Contributor] 在分布式训练时,提高计算通信占比是提高计算加速比的有效手段,当网络通信优化到一定程度时,只有通过增加每个worker上的batch size来提升计算量,进而提高计算通信占比.然而一直以来Deep Learning模型在训练时对Batch Size的选择都是异常敏感的,通常的经验是Large Batch Size会使收敛性变差,而相对小一点的Batch Size才能收敛的更好…