引入 1. 随机梯度下降的特点 随机梯度下降法(Stochastic Gradient Descent)作为深度学习中主流使用的最优化方法, 有以下的优点: 躲避和逃离假的鞍点和局部极小点的能力 这篇论文认为, 这些局部极小也包含着一些有用的信息, 能够帮助提升模型的能力. 2. 局部极小的意义 神经网络的最优化一般来说, 不会收敛在全局最小上, 而是收敛在某个局部极小上. 这些局部极小有着好和坏的区别. 而对于好坏的区分, 一般认为: 局部极小有着平坦的区域flat basin, 这些点对应模…