【论文笔记】Training Very Deep Networks

目标：

怎么训练很深的神经网络

然而过深的神经网络会造成各种问题，梯度消失之类的，导致很难训练

作者利用了类似LSTM的方法，通过增加gate来控制transform前和transform后的数据的比例，称为Highway network

至于为什么会有效...大概和LSTM会有效的原因一样吧。

方法：

首先是普通的神经网络，每一层H从输入x映射到输出y，H通常包含一个仿射变换和一个非线性变换，如下

在这个基础上，highway network添加了两个gate

1）T：trasform gate

2）C：carry gate

添加后的层输出如下：

可以看出T和C控制就是x和H之间的比例，为了简化，设C=1-T

显然，y的值：

对应的导数为

那么还剩下一个问题，这个transform gate的形式是什么，作者使用的是类似LSTM中的仿射变换+sigmoid的方法：

其中b的值会被初始化为负值（-1～-3），这样的话初始状态carry gate的值会更大，也就是说输出y会更偏向x。

另外，由于这里要求每一层的输入x与输出y有相同的大小，所以在每一层之间可能存在一个映射层，把上一层映射到下一层的输入大小。

实验：

所有实验使用带动量的SGD，学习率随指数衰减，每一层的H由仿射和RELU组成，文中提供了源码：

http://people.idsia.ch/~rupesh/very_deep_learning/

首先是网络层数的实验

highway指的是本文方法，plain指的是普通的神经网络，可以看出，对于深层的神经网络，highway的结果要好得多。这也就说明添加transform gate的方法是有效的。

另外还有一些关于准确率/层数/参数数量相关的实验：

分析：

首先看看各个gate相关参数的激活

上图中的第一列表示gate的bias项，CIFAR数据集中，bias随着层数不断增减，这也就说明前几层受原始输入影响比较大，而后几层则受激活函数H影响更大。

第二列和第三列表示transform gate的输出，某种意义上说更明显，多数项的gate是close的，仅仅把输入直接传递给输出，只有少数项是激活的。

最后一列是输出，可以看出，输入和输出并没有改变太多，同一block上基本同正负。

从上面的结果看，其实这更像是skip connection，输入的结果并不会影响每一层，而是在直接传递n层后给了后面的某一层，这有点像高速公路，多数车在一个车道行驶，偶尔变道。

那么这种“变道”是固定的吗？答案是不对，数据还是会选择合适地方进行变道，如下图所示

另一个问题，既然真正激活的内容那么少，是不是意味着许多层并没有提供贡献？

答案：要看问题

对于MNIST，由于问题比较简单，因此就算是移除60%的层，依然可以有让人满意的结果

但是对于复杂的问题，比如CIFAR，随便删除一些层会导致结果大幅度下降，这也就说明深层数对于复杂问题而言更重要（废话

总结：

这篇与其说是怎么构造更深的神经网络，不如说是如何帮网络中的信息做路由，不同的信息应该在不同的层得到激活，而不是都在同一层。

而和一般的skip-connection不同，这种跨层的关系不是固定的，是通过学习得到的，所以对问题的适应性应该会更强。

【论文笔记】Training Very Deep Networks - Highway Networks的更多相关文章

论文笔记(1)：Deep Learning.
论文笔记1:Deep Learning 2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...
论文笔记： Dual Deep Network for Visual Tracking
论文笔记: Dual Deep Network for Visual Tracking 2017-10-17 21:57:08 先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. ...
论文笔记之：Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks
Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks NIPS 2015 摘要:本文提出一种 ...
论文笔记：Deeper and Wider Siamese Networks for Real-Time Visual Tracking
Deeper and Wider Siamese Networks for Real-Time Visual TrackingUpdated on 2019-04-01 16:10:37 Paper ...
论文笔记：Semantic Segmentation using Adversarial Networks
Semantic Segmentation using Adversarial Networks 2018-04-27 09:36:48 Abstract: 对于产生式图像建模来说,对抗训练已经取得了 ...
论文笔记：Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking
Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking 2019-03-20 16:45:23 Paper:ht ...
论文笔记：Learning regression and verification networks for long-term visual tracking
Learning regression and verification networks for long-term visual tracking 2019-02-18 22:12:25 Pape ...
【论文笔记】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 2018-01-28 15:4 ...
论文笔记：Visualizing and Understanding Convolutional Networks
2014 ECCV 纽约大学 Matthew D. Zeiler, Rob Fergus 简单介绍(What) 提出了一种可视化的技巧,能够看到CNN中间层的特征功能和分类操作. 通过对这些可视化信息 ...

随机推荐

转：SpringMVC中日期格式的转换
解决日期提交转换异常的问题由于日期数据有很多种格式,所以springmvc没办法把字符串转换成日期类型.所以需要自定义参数绑定.前端控制器接收到请求后,找到注解形式的处理器适配器,对RequestM ...
linux sshd ssh 服务的启动和使用
这里使用sshd服务登录到linux系统的方法,不少同学走了弯路,包括我,我一直使用vmware虚拟linux学习使用的,后来windows病毒的原因转入到linux系统中使用 1,sshd服务安装 ...
linux串口编程参数配置详解(转)
1.linux串口编程需要的头文件 #include <stdio.h> //标准输入输出定义#include <stdlib.h> //标准函数 ...
C++ map,set内部数据结构
1)Set是一种关联容器,它用于存储数据,并且能从一个数据集合中取出数据.它的每个元素的值必须唯一,而且系统会根据该值来自动将数据排序.每个元素的值不能直接被改变.[重点]内部结构采用红黑树的平衡二叉 ...
实体格式化转xml
In the past, I've done the following to control datetime serialization: Ignore the DateTime property ...
Windows Server 2008中安装IIS7.0
最近由于需求重新部署了一台服务器Windows Server 2008,由于以前都是在Windows Server 2003上操作,因此记录下,供其他同学参考. 下面主要介绍在Windows Se ...
ASP.NET Core之项目文件简介及配置文件与IOC的使用
原文地址:https://www.cnblogs.com/knowledgesea/p/7079880.html 序言在当前编程语言蓬勃发展与竞争的时期,对于我们.net从业者来说,.Net Cor ...
OpenCV 学习笔记03 凸包convexHull、道格拉斯-普克算法Douglas-Peucker algorithm、approxPloyDP 函数
凸形状内部的任意两点的连线都应该在形状里面. 1 道格拉斯-普克算法 Douglas-Peucker algorithm 这个算法在其他文章中讲述的非常详细,此处就详细撰述. 下图是引用维基百科的.ε ...
atom介绍
在公司微信群,看到activate-power-mode插件的效果,很绚丽,才知道github自己出了一个自己的编辑器atom 官网地址 https://atom.io 官网看了下,atom编辑器的特 ...
STVD中将现有工程重命名为另一个工程
http://blog.csdn.net/sy_lixiang/article/details/47273649 例子:把工程名为Template的工程改为color,把左边红圈部分重命名为右面的名字 ...

【论文笔记】Training Very Deep Networks - Highway Networks

目标：

方法：

实验：

【论文笔记】Training Very Deep Networks - Highway Networks的更多相关文章

随机推荐

热门专题