0.背景 随着CNN变得越来越深,人们发现会有梯度消失的现象.这个问题主要是单路径的信息和梯度的传播,其中的激活函数都是非线性的,从而特别是乘法就可以使得随着层数越深,假设将传统的神经网络的每一层看成是自动机中的一个状态.那么对于整个神经网络来说,输入到输出就是一个输入态不断的转移到输出态的一个过程.假设其中每一层都是有个变率,即缩放因子.那么: 变率大于1,层数越多,越呈现倍数放大趋势,比如爆炸: 变率小于1,层数越多,越呈现倍数缩小趋势,比如消失: 而传统以往的卷积神经网络都是单路径的,即从…