全零初始化的问题: 在Linear Regression中,常用的参数初始化方式是全零,因为在做Gradient Descent的时候,各个参数会在输入的各个分量维度上各自更新.更新公式为: 而在Neural Network(Deep Learning)中,当我们将所有的parameters做全零初始化,根据公式: 可知,每一层的Zl均为0,如果使用sigmoid activation,则al的值都等于0.5.在反向传播时,误差值 因为有ω在里面,所以导致δ都变成了零,而我们用于做Gradien…