有关各种优化算法的详细算法流程和公式可以参考[这篇blog],讲解比较清晰,这里说一下自己对他们之间关系的理解. BGD 与 SGD 首先,最简单的 BGD 以整个训练集的梯度和作为更新方向,缺点是速度慢,一个 epoch 只能更新一次模型参数. SGD 就是用来解决这个问题的,以每个样本的梯度作为更新方向,更新次数更频繁.但有两个缺点: 更新方向不稳定.波动很大.因为单个样本有很大的随机性,单样本的梯度不能指示参数优化的大方向. 所有参数的学习率相同,这并不合理,因为有些参数不需要频繁变化,而…