原文链接 在Tensorflow的教程里面,使用梯度下降算法训练神经网络时,都会提到一个使模型更加健壮的策略,即滑动平均模型. 基本思想 在使用梯度下降算法训练模型时,每次更新权重时,为每个权重维护一个影子变量,该影子变量随着训练的进行,会最终稳定在一个接近真实权重的值的附近.那么,在进行预测的时候,使用影子变量的值替代真实变量的值,可以得到更好的结果. 操作步骤 训练阶段:为每个可训练的权重维护影子变量,并随着迭代的进行更新: 预测阶段:使用影子变量替代真实变量值,进行预测. 滑动平均模型在梯