ReLU激活函数的缺点

训练的时候很”脆弱”，很容易就”die”了，训练过程该函数不适应较大梯度输入，因为在参数更新以后，ReLU的神经元不会再有激活的功能，导致梯度永远都是零。
例如，一个非常大的梯度流过一个 ReLU 神经元，更新过参数之后，这个神经元再也不会对任何数据有激活现象了，那么这个神经元的梯度就永远都会是 0.
如果 learning rate 很大，那么很有可能网络中的 40% 的神经元都”dead”了。

原因：

假设有一个神经网络的输入W遵循某种分布，对于一组固定的参数（样本），w的分布也就是ReLU的输入的分布。假设ReLU输入是一个低方差中心在+0.1的高斯分布。

在这个场景下：

大多数ReLU的输入是正数，因此
大多数输入经过ReLU函数能得到一个正值（ReLU is open），因此
大多数输入能够反向传播通过ReLU得到一个梯度，因此
ReLU的输入（w）一般都能得到更新通过随机反向传播（SGD）

现在，假设在随机反向传播的过程中，有一个巨大的梯度经过ReLU，由于ReLU是打开的，将会有一个巨大的梯度传给输入（w）。这会引起输入w巨大的变化，也就是说输入w的分布会发生变化，假设输入w的分布现在变成了一个低方差的，中心在-0.1高斯分布。

在这个场景下：

大多数ReLU的输入是负数，因此
大多数输入经过ReLU函数能得到一个0（ReLU is close）,因此
大多数输入不能反向传播通过ReLU得到一个梯度，因此
ReLU的输入w一般都得不到更新通过随机反向传播（SGD）

发生了什么？只是ReLU函数的输入的分布函数发生了很小的改变（-0.2的改变），导致了ReLU函数行为质的改变。我们越过了0这个边界，ReLU函数几乎永久的关闭了。更重要的是ReLU函数一旦关闭，参数w就得不到更新，这就是所谓的‘dying ReLU’。

（译者：下面有一段关于神经元死亡后能够复活的讨论，未翻译）

从数学上说，这是因为ReLU的数学公式导致的

r(x)=max(x,0)r(x)=max(x,0)

导数如下

Δxr(x)=1(x>0)Δxr(x)=1(x>0)

所以可以看出，如果在前向传播的过程中ReLU is close，那么反向传播时，ReLU也是close的。

参考：

https://www.zhihu.com/question/59031444

https://www.jianshu.com/p/22d9720dbf1a

https://blog.csdn.net/disiwei1012/article/details/79204243

ReLU激活函数的缺点的更多相关文章

RELU 激活函数及其他相关的函数
RELU 激活函数及其他相关的函数转载 2016年07月21日 20:51:17 45778 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 更多相关博客 ...
tensorflow Relu激活函数
1.Relu激活函数 Relu激活函数(The Rectified Linear Unit)表达式为:f(x)=max(0,x). 2.tensorflow实现 #!/usr/bin/env pyth ...
MINST手写数字识别（三）—— 使用antirectifier替换ReLU激活函数
这是一个来自官网的示例:https://github.com/keras-team/keras/blob/master/examples/antirectifier.py 与之前的MINST手写数字识 ...
ReLU激活函数：简单之美
出自 http://blog.csdn.net/cherrylvlei/article/details/53149381 导语在深度神经网络中,通常使用一种叫修正线性单元(Rectified lin ...
ReLU激活函数
参考:https://blog.csdn.net/cherrylvlei/article/details/53149381 首先,我们来看一下ReLU激活函数的形式,如下图: 单侧抑制,当模型增加N层 ...
深度学习基础系列（三）| sigmoid、tanh和relu激活函数的直观解释
常见的激活函数有sigmoid.tanh和relu三种非线性函数,其数学表达式分别为: sigmoid: y = 1/(1 + e-x) tanh: y = (ex - e-x)/(ex + e-x) ...
Relu激活函数的优点
Relu优点: 1.可以使网络训练更快. 相比于sigmoid.tanh,导数更加好求,反向传播就是不断的更新参数的过程,因为其导数不复杂形式简单. 2.增加网络的非线性. 本身为非线性函数,加入到神 ...
tf.nn.relu 激活函数
tf.nn.relu(features, name = None) 计算校正线性:max(features, 0) 参数: features:一个Tensor.必须是下列类型之一:float32,fl ...
激活函数(ReLU, Swish, Maxout)
神经网络中使用激活函数来加入非线性因素,提高模型的表达能力. ReLU(Rectified Linear Unit,修正线性单元) 形式如下: \[ \begin{equation} f(x)= \b ...

随机推荐

网络层HTPPS和HTTP的概念与区别
HTPPS和HTTP的概念 HTTPS(全称:Hypertext Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP ...
oracle dmp文件导出与导入
ORACLE 10g导入 ORACLE 11g 一.expdp.sh导出dmp文件export PATH=$PATH:$HOME/binexport ORACLE_BASE=/oracleexport ...
James Munkres Topology: Theorem 16.3
Theorem 16.3 If $A$ is a subspace of $X$ and $B$ is a subspace of $Y$, then the product topo ...
[转]Windows下安装storm-0.9.1
来源:https://www.cnblogs.com/liuruitao/p/4669657.html Windows下安装storm-0.9.1的详细步骤如下: 1.确定已经正确安装JDK1.6或J ...
win10下如何解决U盘连接上电脑但不显示的问题
问题:U盘插上电脑之后,任务栏上有U盘连接上的显示,但是在磁盘符和U盘管理器上没有它的显示. 方法: 1.在任务栏上点击win图标,再点击“设置”(或直接使用快捷键win+i)进入到win10下的“设 ...
Python：爬虫之利用Python获取指定网址上的所有图片—Jaosn niu
# coding=gbk import urllib.request import re import os import urllib def getHtml(url): #指定网址获取函数 pag ...
Selenium2+python自动化45-18种定位方法（find_elements）
前言江湖传言,武林中流传八种定位,其中xpath是宝刀屠龙,css是倚天剑. 除了这八种,其实还有十种定位方法,眼看就快失传了,今天小编让失传已久的定位方法重出江湖! 一.十八种定位方法前八种是大 ...
XOR UVALive - 8512 -区间线性基合并
UVALive - 8512 题意 :给出一个包含n个元素的数组A以及一个k,接下来进行q次询问,每次询问给出 l 和 r , 要你求出从A[l] , A[l+1] , A[l + 2],...,A[ ...
X Open Cup named after E.V. Pankratiev. European Grand Prix
A. Arithmetic Rectangle 对于一行或者一列的情况可以递推求出最大值. 对于至少一行或者一列的情况,可以定义四个格子一组横向和纵向的相等关系,然后悬线法求最大子矩阵. 时间复杂度$ ...
ECMA Script 6_异步编程之 Promise
Promise 对象异步编程方案,已同步的方式表达异步的代码,解决回调地狱的问题比传统的解决方案——回调函数和事件——更合理和更强大是一个容器,里面保存着某个未来才会结束的事件(通常是一个异步 ...

ReLU激活函数的缺点

ReLU激活函数的缺点的更多相关文章

随机推荐

热门专题