梯度下降是机器学习中用来使模型逼近真实分布的最小偏差的优化方法. 在普通的随机梯度下降和批梯度下降当中,参数的更新是按照如下公式进行的: W = W - αdW b = b - αdb 其中α是学习率,dW.db是cost function对w和b的偏导数. 随机梯度下降和批梯度下降的区别只是输入的数据分别是mini-batch和all. 然而,在曾经我发表的博客中提到了下图的问题. 可以看出在cost function的图像并不是那么“圆”的情况下,,从某一点开始的梯度下降过程是及其曲折的.并…