ReLU——Deep Sparse Rectifier Neural Networks
1. 摘要
ReLU 相比 Tanh 能产生相同或者更好的性能,而且能产生真零的稀疏表示,非常适合自然就稀疏的数据。
采用 ReLU 后,在大量的有标签数据下,有没有无监督预训练模型取得的最好效果是一样的,这可以被看做是训练深层有监督网络的一个新的里程碑。
2. 背景
2.1. 神经元科学的观察
对脑能量消耗的研究表明,神经元以稀疏和分布的方式编码信息,同时活跃的神经元的百分比估计在 1% 到 4% 之间。这是信息表示丰富度和潜在能量消耗的一种平衡。但是,如果没有额外的正则化,比如 \(L_1\) 惩罚,普通的神经网络是没有这个特性的。

在生物神经元模型中,射频和输入电流的关系如上面左图所示。而在深度学习领域,最常见的两个激活函数 Sigmoid 和 Tanh 的图像如上面右图所示。
2.2. 稀疏的优势
信息分离。密集表示的信息是高度纠缠的,任何输入的变化都会导致表示向量大部分元素的改变。而如果一个表示对小的输入变化是稀疏且鲁棒的,那么非零特征就总会大致保持不变。
有效的大小可变表示。不同的输入信息量可能不同,这就要求我们的表示也是大小可变的。而改变激活神经元的数量就可以让模型控制表示的有效维度以及需要的精度。
线性可分。稀疏表示的信息一般是在高维空间,更加容易线性可分。
分布但稀疏。密集的分布式表示是最丰富的表示,比纯局部要成倍地有效,而稀疏表示中非零特征的数量也可以保证其有效性。
但是,太过强调稀疏性也会减少模型的有效容量,降低性能。
3. 深度网络
神经科学研究表明,大脑皮层的神经元很少达到它们的最大饱和区域,这表明激活函数可以用 ReLU 来近似表示。

给定一个输入,只有一部分神经元被选择,网络的非线性也就来自于单个神经元的是否被激活。一旦确定了哪些神经元被选择,输出就是对输入的一个线性函数。正因为此,梯度的反向传播不会像 Sigmoid 或者 Tanh 那样容易消失,而且也不涉及指数部分的计算,节省计算成本,还能得到稀疏解。每一次,被激活的神经元都是不确定的,这可以看作是很多个共享参数的线性模型的组合。
5. 实验结果

可以看到,没有预训练时,采用 ReLU 作为激活函数取得了最好的结果。而增加了与训练后,效果与之前相比也并没有太大差异。

在稀疏性没有达到 85% 之前,稀疏性都不会降低模型最终的表现,超过 85% 之后,稀疏性过大会降低模型的容量导致效果下降。
获取更多精彩,请关注「seniusen」!

ReLU——Deep Sparse Rectifier Neural Networks的更多相关文章
- [C1W3] Neural Networks and Deep Learning - Shallow neural networks
第三周:浅层神经网络(Shallow neural networks) 神经网络概述(Neural Network Overview) 本周你将学习如何实现一个神经网络.在我们深入学习具体技术之前,我 ...
- Coursera, Deep Learning 1, Neural Networks and Deep Learning - week4, Deep Neural Networks
Deep Neural Network Getting your matrix dimention right 选hyper-pamameter 完全是凭经验 补充阅读: cost 函数的计算公式: ...
- Coursera, Deep Learning 1, Neural Networks and Deep Learning - week3, Neural Networks Basics
NN representation 这一课主要是讲3层神经网络 下面是常见的 activation 函数.sigmoid, tanh, ReLU, leaky ReLU. Sigmoid 只用在输出0 ...
- Coursera, Deep Learning 1, Neural Networks and Deep Learning - week1, Introduction to deep learning
整个deep learing 系列课程主要包括哪些内容 Intro to Deep learning
- PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection
URL: https://arxiv.org/abs/1608.08021 year: 2016 TL;DR PVANet 一个轻量级多物体目标检测架构, 遵循 "less channels ...
- DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks
1.Introduction DL解决VO问题:End-to-End VO with RCNN 2.Network structure a.CNN based Feature Extraction 论 ...
- Coursera, Deep Learning 1, Neural Networks and Deep Learning - week2, Neural Networks Basics
Logistic regression Cost function for logistic regression Gradient Descent 接下来主要讲 Vectorization Logi ...
- Combining STDP and Reward-Modulated STDP in Deep Convolutional Spiking Neural Networks for Digit Recognition
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 灵长类视觉系统激发了深度人工神经网络的发展,使计算机视觉领域发生了革命性的变化.然而,这些网络的能量效率比它们的生物学对 ...
- 论文翻译:2018_Source localization using deep neural networks in a shallow water environment
论文地址:https://asa.scitation.org/doi/abs/10.1121/1.5036725 深度神经网络在浅水环境中的源定位 摘要: 深度神经网络(DNNs)在表征复杂的非线性关 ...
随机推荐
- [SDOI2009]HH的项链(莫队)
嘟嘟嘟 这题原本莫队能过,自从某谷加强数据后好像就只能80了. 但这并不重要. (其实写这篇博客只是想记录一下莫队板子) 莫队,总而言之,离线,排序,暴力. #include<cstdio> ...
- [luogu3943] 星空
题面 这个题目大意上是这样的:给定一个长度为n的01串, 其中只有k个0, 每次操作时, 从给定的m种长度中选择一种, 选择序列上长度为这种的进行反转操作, 求至少需要多少次操作使得整个串全变为1 ...
- IPython学习笔记(一)
开始看<利用python进行数据分析>这一本书,记录下学习的点滴,对于每一个小知识点记录得过于详细,但是好记性不如烂笔头,动动手还是记得比较深刻点. 1.Tab自动补齐 输入an后按Tab ...
- .NET平台下开源三维 GIS (地形与游戏)平台资料
.net平台下开源(免费)三维(地形,游戏)GIS平台 open source (free) 3d (terrain,game) gis platform based on .net (C#) Axi ...
- Linux系统管理命令
Linux系统管理命令 命令 说明 stat 显示指定文件的相关信息,比ls命令显示内容更多 who 显示在线登录用户 hostname 显示主机名称 uname 显示系统信息 top 显示当前系统中 ...
- helm-locate 使用 everything
emacs里不需任何设置,只要在电脑的环境变量里加上everything的目录即可. 1.下载es.exe (http://www.voidtools.com/es.zip) 2.把解压出的es.ex ...
- ArrayProxy-Emberjs
ember 2.18版本API翻译之Ember.ArrayProxy import ArrayProxy from '@ember/array/proxy'; ArrayProxy(数组代理)包装实现 ...
- 5分钟速成C++14多线程编程
原文链接:Learn C++ Multi-Threading in 5 Minutes C++14的新的多线程架构非常简单易学,如果你对C或者C++很熟悉,那么本文非常适合你.作者用C++14作为基准 ...
- sqlserver分区视图中分区列的规则
分区列规则 分区列存在于每个成员表上,并且通过 CHECK 约束标识特定表中的可用数据.分区列必须遵守如下规则: 每个基表都拥有键值由 CHECK 约束所强制的分区列.每个表的 CHECK 约束的键范 ...
- 大数据入门第七天——MapReduce详解(二)切片源码浅析与自定义patition
一.mapTask并行度的决定机制 1.概述 一个job的map阶段并行度由客户端在提交job时决定 而客户端对map阶段并行度的规划的基本逻辑为: 将待处理数据执行逻辑切片(即按照一个特定切片大小, ...