随机初始化 在线性回归和逻辑回归中,使用梯度下降法之前,将θ设置为0向量,有时会习惯性的将神经网络中的权重全部初始化为0,然而这在神经网络中并不适用. 以简单的三层神经网络为例,将全部权重都设置为0,如下图所示: 假设仅有一个训练数据,使用梯度下降,在第一次迭代时: 可以看到,第一次迭代的结果是:隐藏层的权重和激活值全部相等,输入层的权重相当于所有输入项放缩了相同的倍数. 在第二次迭代时: 此时,隐藏层的激活值又一次全部相等.继续迭代也会得到相同的结果,即a(2)的所有激活值和权重都一样,这显然…