dropout 为何会有正则化作用

在神经网络中经常会用到dropout，大多对于其解释就是dropout可以起到正则化的作用。

一下是我总结的对于dropout的理解。花书上的解释主要还是从模型融合的角度来解释，末尾那一段从生物学角度的解释是在是看不明白。

从模型融合的角度来解释dropout:

Dropout提供了正则化一一大类模型的方法。Dropout可以被认为是集成大量的深层神经网络模型的

Bagging方法。通常的Bagging方法是每个模型单独训练的，但是这对于大规模的神经网络来说是不现实的。一般神经网络模型的融合都只能集成5到10个模型。但是Dropout提供了一种廉价的bagging集成近似，能够训练和评估指数数量的神经网络。Dropout集成的是所有从基础网络除去非输出单元后形成的子网络。

这种如果我们设置dropout的概率为0.5，那么有N个隐藏层沈神经元的网络，可以产生2的N次方个子网络。

Dropout训练与Bagging训练不一样，Bagging的训练，每个模型都是独立的，各自有各自的参数。但是在Dropout的情况下，所有模型共享参数，其中每个模型集成父神经网络参数的不同子集。

在单个步骤的训练中，我们一次训练一个子网络。

bagging集成必须根据所有成员的累积投票做一个预测。在这种背景下，我们成这个过程为推断。

Bagging是每个模型产生一个概率分布，然后做算术平均，得到最终的结果。

我的理解是Dropout是通过最后一层，比如softmax来做融合。这部分花书上有推导。求模型的几何平均，而不是bagging的算术平均。

Dropout另一个优点是适用的模型比较广泛，而且效果都不错。

总而言之，Dropout是目前使用最广泛的隐式集成的方法。

Dropout强大的另一个解释是，我们把施加到神经元链接上的Dropout看做是一个噪声掩码，通过施加噪声，增强了模型的泛化能力。

Dropout的噪声引入是乘性的，这部分的优势，目前还不了解，等我再看看书吧

受到生物学的启发，解释dropout:

参考资料：

《深度学习》第七章

https://blog.csdn.net/stdcoutzyx/article/details/49022443

dropout 为何会有正则化作用的更多相关文章

Paper List ABOUT Deep Learning
Deep Learning 方向的部分 Paper ,自用.一 RNN 1 Recurrent neural network based language model RNN用在语言模型上的开山之作 ...
Deep Learning方向的paper
转载 http://hi.baidu.com/chb_seaok/item/6307c0d0363170e73cc2cb65 个人阅读的Deep Learning方向的paper整理,分了几部分吧,但 ...
正则化方法：L1和L2 regularization、数据集扩增、dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在tr ...
正则化，数据集扩增，Dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在tr ...
正则化方法：L1和L2 regularization、数据集扩增、dropout（转）
ps:转的.当时主要是看到一个问题是L1 L2之间有何区别,当时对l1与l2的概念有些忘了,就百度了一下.看完这篇文章,看到那个对W减小,网络结构变得不那么复杂的解释之后,满脑子的6666------ ...
模型正则化，dropout
正则化在模型中加入正则项,防止训练过拟合,使测试集效果提升 Dropout 每次在网络中正向传播时,在每一层随机将一些神经元置零(相当于激活函数置零),一般在全连接层使用,在卷积层一般随机将整个通道 ...
Dropout正则化和其他方法减少神经网络中的过拟合
1. 什么是Dropout(随机失活) 就是在神经网络的Dropout层,为每个神经元结点设置一个随机消除的概率,对于保留下来的神经元,我们得到一个节点较少,规模较小的网络进行训练. 标准网络和dro ...
深度学习（dropout）
other_techniques_for_regularization 随手翻译,略作参考,禁止转载 www.cnblogs.com/santian/p/5457412.html Dropout: D ...
[DeeplearningAI笔记]改善深层神经网络1.4_1.8深度学习实用层面_正则化Regularization与改善过拟合
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.4 正则化(regularization) 如果你的神经网络出现了过拟合(训练集与验证集得到的结果方差较大),最先想到的方法就是正则化(re ...

随机推荐

SonarQube+jenkins+maven平台搭建
SonarQube代码质量管理 1.配置jdk和maven jenkins - 系统管理 - 全局工具配置 jdk安装: # which java# /usr/local/java/jdk1.8.0. ...
再次学习javascript中的參数传递
javascript中的全部函数的參数传递都是依照值传递的,做了以下測试: function addTen(num){ num +=10; return num; } var count = ...
sipp模拟freeswitch分机测试(SIP协议调试)
1.freeswitch安装 1) 网上很多安装方法都不靠谱,系统版本,各种依赖库一堆问题,下面是验证的可行的. yum install -y http://files.freeswitch.org/ ...
springboot使用tomcat apr模式
因需项目对并发要求比较高.提高Tomcat效率.使用tomcat apr模式.今天在这记录下使用过程.apr全称为apache portable runtime.这里套用下wiki对apr的解释. T ...
《闪存问题之READ DISTURB》总结
来自 http://www.ssdfans.com/?p=1778 闪存存在几个问题,影响着数据可靠性: 1.擦除次数,闪存擦除次数增多,会使隔离栅极的电化学键变弱. 2.data retention ...
详解MySQL第三篇—DCL语句
DCL(Data Control Language)语句:数据控制语句,用于控制不同数据段直接的许可和访问级别的语句.这些语句定义了数据库.表.字段.用户的访问权限和安全级别.主要的语句关键字包括 g ...
二进制x&(x-1);
求下面函数的返回值(微软) int func(x) { int countx = 0; while(x) { countx ++; x ...
Linux系统——rpm命令
(1)查看操作系统名字.版本cat /etc/redhat-release 查看系统内核kernel的版本号uname -r查看操作系统位数uname -m (2)rpm命令rpm 参数软件名-q ...
PKU 1226 Substrings(字符串匹配+暴搜KMP模板)
原题大意:原题链接给出n个字符串,找出一个最长的串s,使s或者s的反转字符串(只要其中一个符合就行)同时满足是这n个串的子串. 对于样例,第一组ABCD BCDFF BRCD最长的串就是CD; ...
PKU 3267 The Cow Lexicon(动态规划)
题目大意:给定一个字符串和一本字典,问至少需要删除多少个字符才能匹配到字典中的单词序列.PS:是单词序列,而不是一个单词思路: ...

dropout 为何会有正则化作用

dropout 为何会有正则化作用的更多相关文章

随机推荐

热门专题