本文是谷歌发表在NeurIPS 2012上的一篇论文,主要讨论了在几万个CPU节点上训练大规模深度网络的问题,并提出了一个名为DistBelief的软件框架.在该框架下实现了两种大规模分布式训练算法:Downpour SGD和Sandblaster L-BFGS,这两种算法都增加了深度网络训练的规模和速度. Introduction 最近几年,深度学习在语音识别.图像识别以及自然语言处理等领域大放异彩.就训练样本的数量和模型参数的数量而言,增加深度学习的规模可以极大地提高最终模型的效果.GPU的…