感谢中国人民大学的胡鹤老师,人工智能课程讲的很有深度,与时俱进 由于深度神经网络(DNN)层数很多,每次训练都是逐层由后至前传递.传递项<1,梯度可能变得非常小趋于0,以此来训练网络几乎不会有什么变化,即vanishing gradients problem:或者>1梯度非常大,以此修正网络会不断震荡,无法形成一个收敛网络.因而DNN的训练中可以形成很多tricks.. 1.初始化权重 起初采用正态分布随机化初始权重,会使得原本单位的variance逐渐变得非常大.例如下图的sigmoid函数…