基于pytorch实现HighWay Networks之Train Deep Networks

（一）Highway Networks 与 Deep Networks 的关系

理论实践表明神经网络的深度是至关重要的，深层神经网络在很多方面都已经取得了很好的效果，例如，在1000-class ImageNet数据集上的图像分类任务通过利用深层神经网络把准确率从84%提高到了95%，然而，在训练深层神经网络的时候却是非常困难的，神经网络的层数越多，存在的问题也就越多（例如大家熟知的梯度消失、梯度爆炸问题，下文会详细讲解）、训练起来也就是愈加困难，这是一个公认的难题。

2015年由Rupesh Kumar Srivastava等人提出的新的网络结构（Highway Networks）很好的解决了这一个问题，Highway Networks 允许信息“高速无阻碍”的通过各个神经层，这就不会出现深层网络中出现的信息阻碍的问题。在此之前，深层神经网络的深度仅仅能够达到几层或者是十几层，但是Highway Networks可以训练数十层甚至上百层的神经网络（前提是硬件设置可以支持这种大量的运算）。

（二）Deep Networks 梯度消失/爆炸（vanishing and exploding gradient）问题

1、什么是梯度消失/爆炸？

在反向传播的过程中，前面层的权重正常学习更新，而接近后面的层权重基本上不更新，导致后面的层基本上学习不到任何的东西，也就是说后面的层只是相当于对输入做了一个映射，那么这样的深层神经网络也就仅仅相当于浅层的神经网络了。

2、梯度消失/爆炸

我们先来看一下简单的深层神经网络（仅仅几个隐藏层）

先把各个层的公式写出来

C=sigmoid(W_4*H_3 +b_4)

H_3=sigmoid(W_3*H_2 +b_3)

H_2=sigmoid(W_2*H_1 +b_2)

H_1=sigmoid(W_1*x +b_1)

对W_1求导

W=W - lr * g(t)

以上公式仅仅是四个隐藏层的情况，当隐藏层的数量达到数十层甚至是数百层的情况下，一个一个的反向传播回去，当权值 < 1的时候，传到最后一层近乎0，例如，〖0.9〗^100已经是很小很小了，这就造成了只有前面几层能够正常的反向传播，后面的那些隐藏层仅仅相当于输入x的权重的映射，权重不进行更新。反过来，当权值 > 1的时候，会造成梯度爆炸，同样是仅仅前面的几层能更改正常学习，后面的隐藏层会变得很大很大。

References

Notation

欢迎转载、转载请注明出处。http://www.cnblogs.com/bamtercelboo/p/7581353.html

基于pytorch实现HighWay Networks之Train Deep Networks的更多相关文章

基于pytorch实现HighWay Networks之Highway Networks详解
(一)简述---承接上文---基于pytorch实现HighWay Networks之Train Deep Networks 上文已经介绍过Highway Netwotrks提出的目的就是解决深层神经 ...
论文笔记：Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks ICML 2017 Paper:https://arxiv.org/ ...
【论文考古】联邦学习开山之作 Communication-Efficient Learning of Deep Networks from Decentralized Data
B. McMahan, E. Moore, D. Ramage, S. Hampson, and B. A. y Arcas, "Communication-Efficient Learni ...
实践torch.fx第一篇——基于Pytorch的模型优化量化神器
第一篇--什么是torch.fx 今天聊一下比较重要的torch.fx,也趁着这次机会把之前的torch.fx笔记整理下,笔记大概拆成三份,分别对应三篇: 什么是torch.fx 基于torch.fx ...
神经网络可视化《Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization》
神经网络已经在很多场景下表现出了很好的识别能力,但是缺乏解释性一直所为人诟病.<Grad-CAM:Visual Explanations from Deep Networks via Gradi ...
Deep Learning 8_深度学习UFLDL教程：Stacked Autocoders and Implement deep networks for digit classification_Exercise（斯坦福大学深度学习教程）
前言 1.理论知识:UFLDL教程.Deep learning:十六(deep networks) 2.实验环境:win7, matlab2015b,16G内存,2T硬盘 3.实验内容:Exercis ...
Initialization of deep networks
Initialization of deep networks 24 Feb 2015Gustav Larsson As we all know, the solution to a non-conv ...
基于pytorch的电影推荐系统
本文介绍一个基于pytorch的电影推荐系统. 代码移植自https://github.com/chengstone/movie_recommender. 原作者用了tf1.0实现了这个基于movie ...
论文笔记：SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks
SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 2019-04-02 12:44:36 Paper:ht ...

随机推荐

利用GPU实现翻页效果
0x00 前言有一段时间没有更新博客了,在考虑写点什么的时候正好赶上了这个月我的书<Unity 3D脚本编程>又加印了.因此写篇小文聊聊利用shader来实现翻书的效果吧. 虽然本文是这 ...
ID3算法（2）
今天,我来讲解的是决策树.对于决策树来说,主要有两种算法:ID3算法和C4.5算法.C4.5算法是对ID3算法的改进.今天主要先讲ID3算法,之后会讲C4.5算法和随机森林等. Contents ...
HTTP Components简介
基于版本4.5.x 简介组件 HttpClient,核心组件 HC Fluent,提供了流式操作接口 HttpMime,提供文件上传时用到的一些工具类 HttpClient Cache,有待学习 H ...
产品经理和Scrum Master都必须是领域专家吗？
注明:原文来自 Mike Cohn的邮件推送,我已将原文贴在最后供参考,翻译的目的是为了锻炼自己的能力和理解水平,如有版权侵犯,请告之. Scrum Master 和产品经理应该是领域专家吗?让我们 ...
《Java从入门到放弃》JavaSE入门篇：面向对象语法一(入门版)
前一次简单说明了一下面向对象编程的概念,今天我们就把这些概念通过Java语法来实现,然后看看效果. 来看第一个案例:定义女神类,再根据女神类创建三个女神对象,并使用女神对象的属性和方法. 第一步:定义 ...
JSP页面中<%!%>与<%%>与<%=%>
首先,我们要了解jsp运行原理.JSP的本质就是一个Servlet,JSP的运行之前会先被Tomcat服务器翻译为.java文件,然后在将.java文本编译为.class文件,而我们在访问jsp时, ...
实现CA证书创建及客户端申请证书
author:JevonWei 版权声明:原创作品 CA证书的相关文件路径 openssl配置文件/etc/pki/tls/openssl.cnf /etc/pki/tls/openssl.cnf C ...
使用 PUTTY 操作 Google Cloud
目的: 使用putty连接Google Cloud 实例. 总说: 首先要用 PuTTYgen生成 private key 和 public key, 之后登录Google Cloud 将生成的 ...
【C# in depth 第三版】温故而知新（1）
声明本文欢迎转载,原文地址:http://www.cnblogs.com/DjlNet/p/7192354.html 前言关于这本书(<深入理解C# 第三版>)的详细情况以及好坏,自行 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...

基于pytorch实现HighWay Networks之Train Deep Networks

（一）Highway Networks 与 Deep Networks 的关系

（二）Deep Networks 梯度消失/爆炸（vanishing and exploding gradient）问题

References

Notation

基于pytorch实现HighWay Networks之Train Deep Networks的更多相关文章

随机推荐

热门专题