在较深的网络,如多层CNN或者非常长的RNN,由于求导的链式法则,有可能会出现梯度消失(Gradient Vanishing)或梯度爆炸(Gradient Exploding )的问题. 原理 问题:为什么梯度爆炸会造成训练时不稳定而且不收敛? 梯度爆炸,其实就是偏导数很大的意思.回想我们使用梯度下降方法更新参数: 损失函数的值沿着梯度的方向呈下降趋势,然而,如果梯度(偏导数)很大话,就会出现函数值跳来跳去,收敛不到最值的情况,如图: 当然出现这种情况,其中一种解决方法是,将学习率αα设小一点,