当我们在大型的数据集上面进行深度学习的训练时,往往需要大量的运行资源,而且还要花费大量时间才能完成训练. 1.分布式TensorFlow的角色与原理 在分布式的TensorFlow中的角色分配如下: PS:作为分布式训练的服务端,等待各个终端(supervisors)来连接. worker:在TensorFlow的代码注释中被称为终端(supervisors),作为分布式训练的计算资源终端. chief supervisors:在众多的运算终端中必须选择一个作为主要的运算终端.该终端在运算终端中…