梯度消失与梯度爆炸 当训练神经网络时,导数或坡度有时会变得非常大或非常小,甚至以指数方式变小,这加大了训练的难度 这里忽略了常数项b.为了让z不会过大或者过小,思路是让w与n有关,且n越大,w应该越小才好.这样能够保证z不会过大.一种方法是在初始化w时,令其方差为.相应的python伪代码为: 如果激活函数是tanh,一般选择下面的初始化方法 w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(1/n[l-1]) 如果激活函数是ReLU,权重w的初始化一般令其…