sigmoid: Relu: 为什么通常Relu比sigmoid和tanh强,有什么不同?主要是因为它们gradient特性不同. 1.sigmoid和tanh的gradient在饱和区域非常平缓,接近于0,很容易造成vanishing gradient的问题,减缓收敛速度.vanishing gradient在网络层数多的时候尤其明显,是加深网络结构的主要障碍之一.相反,Relu的gradient大多数情况下是常数,有助于解决深层网络的收敛问题. 2.Relu的另一个优势是在生物上的合理性,它…