ReLu（修正线性单元）、sigmoid和tahh的比较

　　不多说，直接上干货!

　　最近，在看论文，提及到这个修正线性单元（Rectified linear unit，ReLU）。

Deep Sparse Rectifier Neural Networks
ReLu(Rectified Linear Units)
修正线性单元(Rectified linear unit，ReLU）
激活函数实现–4 Rectified linear函数实现 Rectified Linear Units

ReLU为什么比Sigmoid效果好

　　在CNN卷积神经网络中，习惯用ReLU函数代替sigmoid, tahh等目标激活函数，这应该是因为，RELU函数在大于0的时候，导数为恒定值，而sigmoid和tahh函数则不是恒定值，相反，sigmoid和tahh的导数，类似于高斯函数的曲线形状，在两端接近目标时，导数变小。

　　导数小的话，在训练神经网络的时候，会BP反向传播误差，导致收敛减慢；而ReLU函数则避免了这点，很好很强大。

　　当然，事情不是一定的，还是得结合实际情况选择，或者涉及目标激活函数。

附：双曲函数类似于常见的(也叫圆函数的)三角函数。基本双曲函数是双曲正弦"sinh"，双曲余弦"cosh"，从它们导出双曲正切"tanh"

sigmod函数：

Relu函数：

综合：

@作者：约翰曰不约

为什么通常Relu比sigmoid和tanh强，有什么不同？
　　主要是因为它们gradient特性不同。sigmoid和tanh的gradient在饱和区域非常平缓，接近于0，很容易造成vanishing gradient的问题，减缓收敛速度。vanishing gradient在网络层数多的时候尤其明显，是加深网络结构的主要障碍之一。相反，Relu的gradient大多数情况下是常数，有助于解决深层网络的收敛问题。Relu的另一个优势是在生物上的合理性，它是单边的，相比sigmoid和tanh，更符合生物神经元的特征。
　　而提出sigmoid和tanh，主要是因为它们全程可导。还有表达区间问题，sigmoid和tanh区间是0到1，或着-1到1，在表达上，尤其是输出层的表达上有优势。

@作者：crackhopper，

　　ReLU更容易学习优化。因为其分段线性性质，导致其前传，后传，求导都是分段线性。而传统的sigmoid函数，由于两端饱和，在传播过程中容易丢弃信息：

@作者：Begin Again

　　第一个问题：为什么引入非线性激励函数？
如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机（Perceptron）了。
　　正因为上面的原因，我们决定引入非线性函数作为激励函数，这样深层神经网络就有意义了（不再是输入的线性组合，可以逼近任意函数）。最早的想法是sigmoid函数或者tanh函数，输出有界，很容易充当下一层输入（以及一些人的生物解释balabala）。

　　第二个问题：为什么引入Relu呢？
　　第一，采用sigmoid等函数，算激活函数时（指数运算），计算量大，反向传播求误差梯度时，求导涉及除法，计算量相对大，而采用Relu激活函数，整个过程的计算量节省很多。
　　第二，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失，参见 @Haofeng Li 答案的第三点），从而无法完成深层网络的训练。
　　第三，Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生（以及一些人的生物解释balabala）。

　　当然现在也有一些对relu的改进，比如prelu，random relu等，在不同的数据集上会有一些训练速度上或者准确率上的改进，具体的大家可以找相关的paper看。
　　多加一句，现在主流的做法，会在做完relu之后，加一步batch normalization，尽可能保证每一层网络的输入具有相同的分布[1]。而最新的paper[2]，他们在加入bypass connection之后，发现改变batch normalization的位置会有更好的效果。大家有兴趣可以看下。

ReLu（修正线性单元）、sigmoid和tahh的比较的更多相关文章

修正线性单元(Rectified linear unit，ReLU）
修正线性单元(Rectified linear unit,ReLU) Rectified linear unit 在神经网络中,常用到的激活函数有sigmoid函数f(x)=11+exp(−x).双曲 ...
感知机和线性单元的C#版本
本文的原版Python代码参考了以下文章: 零基础入门深度学习(1) - 感知器零基础入门深度学习(2) - 线性单元和梯度下降在机器学习如火如荼的时代,Python大行其道,几乎所有的机器学习的 ...
用线性单元（LinearUnit）实现工资预测的Python3代码
功能:通过样本进行训练,让线性单元自己找到(这就是所谓机器学习)工资计算的规律,然后用两组数据进行测试机器是否真的get到了其中的规律. 原文链接在文尾,文章中的代码为了演示起见,仅根据工作年限来预测 ...
（2）Deep Learning之线性单元和梯度下降
往期回顾在上一篇文章中,我们已经学会了编写一个简单的感知器,并用它来实现一个线性分类器.你应该还记得用来训练感知器的『感知器规则』.然而,我们并没有关心这个规则是怎么得到的.本文通过介绍另外一种『感 ...
关于逻辑回归是否线性？sigmoid
from :https://www.zhihu.com/question/29385169/answer/44177582 逻辑回归的模型引入了sigmoid函数映射,是非线性模型,但本质上又是一个线 ...
[PyTorch 学习笔记] 3.3 池化层、线性层和激活函数层
本章代码:https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson3/nn_layers_others.py 这篇文章主要介绍 ...
[DeeplearningAI笔记]神经网络与深度学习3.2_3.11(激活函数)浅层神经网络
觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2 神经网络表示对于一个由输入层,隐藏层,输出层三层所组成的神经网络来说,输入层,即输入数据被称为第0层,中间层被称为第1层,输出层被称为 ...
第十五节，卷积神经网络之AlexNet网络详解(五)
原文 ImageNet Classification with Deep ConvolutionalNeural Networks 下载地址:http://papers.nips.cc/paper/4 ...
Deep Learning基础--26种神经网络激活函数可视化
在神经网络中,激活函数决定来自给定输入集的节点的输出,其中非线性激活函数允许网络复制复杂的非线性行为.正如绝大多数神经网络借助某种形式的梯度下降进行优化,激活函数需要是可微分(或者至少是几乎完全可微分 ...

随机推荐

数组对象分类个数js
<script type="text/javascript"> $(function(){ var aaa = [ {"task1":"z ...
Shell转大写为小写
#!/bin/bash # read a a=$(echo "$a" | awk '{print tolower($0)}') #转大写为小写 if [[ $a = 'y' || ...
Windows环境下安装 mysql-8.0.11-winx64 遇到的问题解决办法
下载mysql安装包,我的是下载mysql-8.0.11-winx64,解压到你想安装的目录下,然后配置环境(window环境下,mac本还没试过), 1.首先,配置环境:右击此电脑->属性-& ...
SpringBoot的线程调度
Spring Boot默认提供了一个ThreadPoolTaskExecutor作为线程调度器,只需要在配置类中使用注解EnableAsync即可开启异步线程调度.在实际要执行的Bean中使用@Asy ...
python3.6以上 asyncio模块的异步编程模型 async await语法
这是python3.6以上版本的用法,本例是python3.7.2编写使用asyncio模块的异步编程模型,生产这消费者,异步生产,用sleep来代替IO等待使用async和await语法来进行描述a ...
生成 Let's Encrypt 免费https证书
1.打开 SSL For Free 官网:https://www.sslforfree.com/ 2.在输入框内输入你要申请证书的域名,输入完点击 Create Free SSL Certificat ...
老男孩老师的博客地址 - 转自devops1992
害怕他那天不让人看了,所以我就复制一份到我自己的博客里. http://www.bootcdn.cn/bootstrap/ bootstrap cdn在线地址 http://www.cnblogs. ...
Chrome浏览器 v68.0.3440.106 正式版怎么样？
谷歌浏览器Google Chrome稳定版迎来v68正式版第三个维护版本发布,详细版本号为v68.0.3440.106,上一个正式版v68.0.3440.84发布于8月1日,时隔8天Google又发布 ...
jquery添加属性的方法
$("#id" ).prop('checked', true); $("#id" ).attr('checked', 'true');
数列分块入门1~9 loj6277~6285
hzwer的讲解一给出一个长为 $n$ 的数列,以及 $n$ 个操作,操作涉及区间加法,单点查值. #include <iostream> #include <cstdi ...

ReLu（修正线性单元）、sigmoid和tahh的比较

ReLU 和sigmoid 函数对比

ReLU为什么比Sigmoid效果好

ReLu（修正线性单元）、sigmoid和tahh的比较的更多相关文章

随机推荐

热门专题