本文主要基于MXNet1.6.0版本,对Gluon接口的分布式训练过程进行简要分析. 众所周知,KVStore负责MXNet分布式训练过程中参数的同步,那么它究竟是如何应用在训练中的呢?下面我们将从Gluon.Trainer这个接口入手,逐步分析分布式训练的梯度交换以及参数同步过程.下面这段代码摘自python/mxnet/gluno/trainer.py文件,相较于源代码删除了一些多余的信息(如某些判断.注释等),以便让我们更好地专注于通信过程. 代码中的step函数是进行梯度交换以及参数更新…