参考自: https://zhuanlan.zhihu.com/p/22252270 常见的优化方法有如下几种:SGD,Adagrad,Adadelta,Adam,Adamax,Nadam 1. SGD SGD就是每一次迭代计算mini-batch的梯度,然后对参数进行更新,是最常见的优化方法了.即: 缺点: 1. 选择合适的learning rate 较难,对所有参数更新使用同样的learning rate. 2. 容易收敛到局部最优,并且在某些情况下可能被困在鞍点. 2. Momentum…