[神经网络优化的挑战] 一.病态: 虽然学习率很小,而且梯度大,但是由于Hessian阵的病态,二次项比一次项还要大,梯度下降事实上并不一定能下降,反而有可能上升.因此需要将学习率调低. 表现:梯度很强,但是学习很缓慢,因为曲率太强 二.局部最小值: 由于权重空间对称性,神经网络有很多局部极小值. 是否存在大量代价高的局部极小值,优化算法是否会碰到,都尚未解决. 梯度范数是否能收缩到一个微小的值. 三.鞍点: 鞍点是更加现实的问题!局部最小值是全正,鞍点是有正有负. 牛顿法会陷入鞍点,二阶算法通…