参考:https://blog.csdn.net/cherrylvlei/article/details/53149381 首先,我们来看一下ReLU激活函数的形式,如下图: 单侧抑制,当模型增加N层之后,理论上ReLU神经元的激活率将降低2的N次方倍,ReLU实现稀疏后的模型能够更好地挖掘相关特征,拟合训练数据.此外,相比于其它激活函数来说,ReLU有以下优势:对于线性函数而言,ReLU的表达能力更强,尤其体现在深度网络中:而对于非线性函数而言,ReLU由于非负区间的梯度为常数,因此不存在梯度