ReLU——Deep Sparse Rectifier Neural Networks

seniusen 2024-09-24 01:28:35 原文

1. 摘要

ReLU 相比 Tanh 能产生相同或者更好的性能，而且能产生真零的稀疏表示，非常适合自然就稀疏的数据。

采用 ReLU 后，在大量的有标签数据下，有没有无监督预训练模型取得的最好效果是一样的，这可以被看做是训练深层有监督网络的一个新的里程碑。

2. 背景

2.1. 神经元科学的观察

对脑能量消耗的研究表明，神经元以稀疏和分布的方式编码信息，同时活跃的神经元的百分比估计在 1％到 4％之间。这是信息表示丰富度和潜在能量消耗的一种平衡。但是，如果没有额外的正则化，比如 \(L_1\) 惩罚，普通的神经网络是没有这个特性的。

在生物神经元模型中，射频和输入电流的关系如上面左图所示。而在深度学习领域，最常见的两个激活函数 Sigmoid 和 Tanh 的图像如上面右图所示。

2.2. 稀疏的优势

信息分离。密集表示的信息是高度纠缠的，任何输入的变化都会导致表示向量大部分元素的改变。而如果一个表示对小的输入变化是稀疏且鲁棒的，那么非零特征就总会大致保持不变。

有效的大小可变表示。不同的输入信息量可能不同，这就要求我们的表示也是大小可变的。而改变激活神经元的数量就可以让模型控制表示的有效维度以及需要的精度。

线性可分。稀疏表示的信息一般是在高维空间，更加容易线性可分。

分布但稀疏。密集的分布式表示是最丰富的表示，比纯局部要成倍地有效，而稀疏表示中非零特征的数量也可以保证其有效性。

但是，太过强调稀疏性也会减少模型的有效容量，降低性能。

3. 深度网络

神经科学研究表明，大脑皮层的神经元很少达到它们的最大饱和区域，这表明激活函数可以用 ReLU 来近似表示。

给定一个输入，只有一部分神经元被选择，网络的非线性也就来自于单个神经元的是否被激活。一旦确定了哪些神经元被选择，输出就是对输入的一个线性函数。正因为此，梯度的反向传播不会像 Sigmoid 或者 Tanh 那样容易消失，而且也不涉及指数部分的计算，节省计算成本，还能得到稀疏解。每一次，被激活的神经元都是不确定的，这可以看作是很多个共享参数的线性模型的组合。

5. 实验结果

可以看到，没有预训练时，采用 ReLU 作为激活函数取得了最好的结果。而增加了与训练后，效果与之前相比也并没有太大差异。

在稀疏性没有达到 85% 之前，稀疏性都不会降低模型最终的表现，超过 85% 之后，稀疏性过大会降低模型的容量导致效果下降。

获取更多精彩，请关注「seniusen」!

ReLU——Deep Sparse Rectifier Neural Networks的更多相关文章

[C1W3] Neural Networks and Deep Learning - Shallow neural networks
第三周:浅层神经网络(Shallow neural networks) 神经网络概述(Neural Network Overview) 本周你将学习如何实现一个神经网络.在我们深入学习具体技术之前,我 ...
Coursera, Deep Learning 1, Neural Networks and Deep Learning - week4, Deep Neural Networks
Deep Neural Network Getting your matrix dimention right 选hyper-pamameter 完全是凭经验补充阅读: cost 函数的计算公式: ...
Coursera, Deep Learning 1, Neural Networks and Deep Learning - week3, Neural Networks Basics
NN representation 这一课主要是讲3层神经网络下面是常见的 activation 函数.sigmoid, tanh, ReLU, leaky ReLU. Sigmoid 只用在输出0 ...
Coursera, Deep Learning 1, Neural Networks and Deep Learning - week1, Introduction to deep learning
整个deep learing 系列课程主要包括哪些内容 Intro to Deep learning
PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection
URL: https://arxiv.org/abs/1608.08021 year: 2016 TL;DR PVANet 一个轻量级多物体目标检测架构, 遵循 "less channels ...
DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks
1.Introduction DL解决VO问题:End-to-End VO with RCNN 2.Network structure a.CNN based Feature Extraction 论 ...
Coursera, Deep Learning 1, Neural Networks and Deep Learning - week2, Neural Networks Basics
Logistic regression Cost function for logistic regression Gradient Descent 接下来主要讲 Vectorization Logi ...
Combining STDP and Reward-Modulated STDP in Deep Convolutional Spiking Neural Networks for Digit Recognition
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 灵长类视觉系统激发了深度人工神经网络的发展,使计算机视觉领域发生了革命性的变化.然而,这些网络的能量效率比它们的生物学对 ...
论文翻译：2018_Source localization using deep neural networks in a shallow water environment
论文地址:https://asa.scitation.org/doi/abs/10.1121/1.5036725 深度神经网络在浅水环境中的源定位摘要: 深度神经网络(DNNs)在表征复杂的非线性关 ...

随机推荐

《Java程序设计》第12周课堂实践总结
<Java程序设计>第12周课堂实践总结实践一教材代码检查-p98 要求修改教材P98 Score2.java, 让执行结果数组填充是自己的学号: 提交在IDEA或命令行中运行结查截 ...
预备作业二——有关CCCCC语言(・᷄ᵌ・᷅)
有关CCCCC语言(・᷄ᵌ・᷅) 下面又到了回答老师问题的时候啦-(・᷄ᵌ・᷅) 有些问题正在深思熟虑中!敬请期待近期的不间断更新! 你有什么技能比大多人(超过90%以上)更好? 针对这个技能的获取你 ...
ejs引擎项目
关于这个我也很懵逼,写这篇博客就是想记录一下,有哪位大神看到之后可以略微指点一二,不胜感激....... 一.项目结构 db model user.js version.js schema xx.js ...
Kafka设计解析（十五）Kafka controller重设计
转载自 huxihx,原文链接 Kafka controller重设计目录一.Controller是做什么的二.Controller当前设计三.Controller组成四.Controlle ...
[NOIp2015]运输计划（二分 $+$ 树上差分）
#\(\mathcal{\color{red}{Description}}\) \(Link\) 在一棵带有边权的树上,可以选择使一条边权为零.然后对于所有\(M\)条链,使其链长最大值最小. #\( ...
设计一个分布式RPC框架
0 前言提前先祝大家春节快乐!好了,先简单聊聊. 我从事的是大数据开发相关的工作,主要负责的是大数据计算这块的内容.最近Hive集群跑任务总是会出现Thrift连接HS2相关问题,研究了解了下内部原 ...
删除Oracle Online Redo 测试
删除Oracle Online Redo 测试 SQL> select * from v$log; GROUP# THREAD# SEQUENCE# BYTES BLOCKS ...
iOS使用NSMutableAttributedString实现富文本小结
NSAttributedString NSAttributedString对象管理适用于字符串中单个字符或字符范围的字符串和关联的属性集(例如字体和字距).NSAttributedString对象的默 ...
SQL进阶语法的多表操作
AS别名多张表联合操作,如果表多,字段名长,不方便阅读.这里我们可以使用 as 关键字来对字段名设置别名. as也可以省略,看个人喜好,在这里我还是支持把 as 写上,这样我们在面对复杂的SQL ...
Linux中定时删除超过指定大小的文件夹
背景: 开发环境总是动不动就没有空间了, 大部分都是debug日志.所以有必要在日志很疯狂的时候,删除不必要的日志. 思路:一. 书写删除日志文件脚本: 定时任务执行. 但是有时候的日志是需要保存用 ...