本文介绍一下2015 ImageNet中分类任务的冠军——MSRA何凯明团队的Residual Networks。实际上。MSRA是今年Imagenet的大赢家。不单在分类任务,MSRA还用residual networks赢了 ImageNet的detection, localization, 以及COCO数据集上的detection和segmentation, 那本文就简单分析下Residual Networks。

文件夹

————————————

1. Motivation

2. 网络结构

3. 实验结果

4. 重要reference


1. Motivation

作者首先抛出了这个问题, 深度神经网络是不是越深越好。

照我们一般的经验,仅仅要网络不训飞(也就是最早在LSTM中提出的vanishing/exploding problem),并且只是拟合, 那应该是越深越好。

可是有这么个情况,网络加深了, accuracy却下降了,称这样的情况为degradation。例如以下图所看到的(详见[1]):




Cifar-10 上的training/testing error. 网络从20层加到56层。error却上升了。

按理说我们有一个shallow net,在只是拟合的情况下再往深加几层怎么说也不会比shallow的结果差,所以degradation说明不是全部网络都那么easy优化。这篇文章的motivation就是通过“deep residual network“解决degradation问题。

2. 网络结构

Shortcut Connections

事实上本文想法和Highway networks(Jurgen Schmidhuber的文章)很类似, 就连要解决的问题(degradation)都一样。Highway networks一文借用LSTM中gate的概念,除了正常的非线性映射H(x, Wh)外,还设置了一条从x直接到y的通路,以T(x, Wt)作为gate来把握两者之间的权重。例如以下公式所看到的:

y=H(x,WH)⋅T(x,WT)+x⋅(1−T(x,WT))






shortcut原意指捷径。在这里就表示越层连接,就比方上面Highway networks里从x直接到y的连接。

事实上早在googleNet的inception层中就有这样的表示:



Residual Networks一文中,作者将Highway network中的含參加权连接变为固定加权连接。即

y=H(x,WH)⋅WT+x

Residual Learning

至此。我们一直没有提及residual networks中residual的含义。

那这个“残差“指什么呢?我们想:

假设能用几层网络去逼近一个复杂的非线性映射H(x),那么相同能够用这几层网络去逼近它的residual function:F(x)=H(x)−x,但我们“猜想“优化residual mapping要比直接优化H(x)简单。

推荐读者们还是看一下本文最后列出的这篇reference paper。本文中作者说与Highway network相比的优势在于:

x Highway Network Residual Network 评论
gate參数 有參数变量WT 没參数,定死的, 方便和没有residual的网络比較 算不上优势,參数少又data-independent。结果肯定不会是最优的,文章实验部分也对照了效果,确实是带參数的error更小,可是WT这个变量与解决degradation问题无关
关门? 有可能关门(T(x,WT)=0) 不会关门 T(x,WT)∈[0,1], 但一般不会为0

所以说这个比較还是比較牵强。。anyway。人家讲个故事也是不easy了。

34层 residual network

网络构建思路:基本保持各层complexity不变,也就是哪层down-sampling了,就把filter数*2, 网络太大,此处不贴了,大家看paper去吧。 paper中画了一个34层全卷积网络。 没有了后面的几层fc,难怪说152层的网络比16-19层VGG的计算量还低。

这里再讲下文章中讲实现部分的 tricks:

  1. 图片resize:短边长random.randint(256,480)
  2. 裁剪:224*224随机採样,含水平翻转
  3. 减均值
  4. 标准颜色扩充[2]
  5. conv和activation间加batch normalization[3]

    帮助解决vanishing/exploding问题
  6. minibatch-size:256
  7. learning-rate: 初始0.1, error平了lr就除以10
  8. weight decay:0.0001
  9. momentum:0.9
  10. 没用dropout[3]

事实上看下来都是挺常规的方法。

3. 实验结果

  1. 34层与18层网络比較:训练过程中,

    34层plain net(不带residual function)比18层plain net的error大

    34层residual net(不带residual function)比18层residual net的error小。更比34层plain net小了3.5%(top1)

    18层residual net比18层plain net收敛快

  2. Residual function的设置:

    A)在H(x)与x维度不同一时候。 用0充填补足

    B) 在H(x)与x维度不同一时候。 带WT

    C)不论什么shortcut都带WT

    loss效果: A>B>C

4. 重要reference

[1]. Highway Networks

[2]. ImageNet Classification with Deep Convolutional Neural Networks

[3]. Batch Normalization

[4]. VGG

Residual Networks <2015 ICCV, ImageNet 图像分类Top1>的更多相关文章

  1. Residual Networks <2015 ICCV, ImageNet 图像分类Top1>

    本文介绍一下2015 ImageNet中分类任务的冠军——MSRA何凯明团队的Residual Networks.实际上,MSRA是今年Imagenet的大赢家,不单在分类任务,MSRA还用resid ...

  2. 课程四(Convolutional Neural Networks),第二 周(Deep convolutional models: case studies) ——3.Programming assignments : Residual Networks

    Residual Networks Welcome to the second assignment of this week! You will learn how to build very de ...

  3. Re-thinking Deep Residual Networks

    本文是对ImageNet 2015的冠军ResNet(Deep Residual Networks)以及目前围绕ResNet这个工作研究者后续所发论文的总结,主要涉及到下面5篇论文. 1. Link: ...

  4. 残差网络(Residual Networks, ResNets)

    1. 什么是残差(residual)? “残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.”“如果回归模型正确的话, 我们可以将残差看作误差的观测值.” 更准确地,假设我们想要找一个 $x$ ...

  5. Residual Networks

    Andrew Ng deeplearning courese-4:Convolutional Neural Network Convolutional Neural Networks: Step by ...

  6. 深度残差网(deep residual networks)的训练过程

    这里介绍一种深度残差网(deep residual networks)的训练过程: 1.通过下面的地址下载基于python的训练代码: https://github.com/dnlcrl/deep-r ...

  7. 深度学习论文笔记:Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes

    这篇文章将深度学习算法应用于机械故障诊断,采用了“小波包分解+深度残差网络(ResNet)”的思路,将机械振动信号按照故障类型进行分类. 文章的核心创新点:复杂旋转机械系统的振动信号包含着很多不同频率 ...

  8. 解析Wide Residual Networks

    Wide Residual Networks (WRNs)是2016年被提出的基于扩展通道数学习机制的卷积神经网络.对深度卷积神经网络有了解的应该知道随着网络越深性能越好,但是训练深度卷积神经网络存在 ...

  9. Convolutional Neural Network-week2编程题2(Residual Networks)

    1. Residual Networks(残差网络) 残差网络 就是为了解决深网络的难以训练的问题的. In this assignment, you will: Implement the basi ...

随机推荐

  1. css sprite的实现

    css sprite 为什么使用css sprite? 网页上的非常多静态小图片在载入时须要大量http请求,添加了响应时间.(哈哈.雅虎34条优化法则的第一条啊) css的background-po ...

  2. PHP生成二维码的2种方式

    二维码的用处俺也就不说了,看一下用PHP生成的二维码吧. 利用谷歌提供的API 生成二维码,如今非常多国外站点都提供了这类API 看下代码吧<=======================> ...

  3. Linux 查找一个函数在哪调用

    grep "function has" -R ThinkPHP

  4. SharePoint 创建网站地图树视图及格式枚举截图

    SharePoint 创建网站地图树视图及格式枚举截图         SharePoint首页隐藏掉左側导航以后,假设要以树视图呈现站点地图也非常easy.         仅仅须要复制v4.mas ...

  5. How to remove focus without setting focus to another control?

    How to remove focus without setting focus to another control? Ask Question up vote 67 down vote favo ...

  6. Docker容器查看ip地址

    第一步:进入centos7容器:yum install net-tools -y     我这里已经加载过,所以没有继续加载 第二步:加载完成之后可以输入 ifconfig查看ip地址

  7. 转:Redis介绍及常用命令大全

    一 Redis介绍 Redis是一个开源的使用ANSI C语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value数据库,并提供多种语言的API.从2010年3月15日起,Redis的开发 ...

  8. usaco No Change, 2013 Nov 不找零(二分查找+状压dp)

    Description 约翰带着 N 头奶牛在超市买东西,现在他们正在排队付钱,排在第 i 个位置的奶牛需要支付 Ci 元.今天说好所有东西都是约翰请客的,但直到付账的时候,约翰才意识到自己没带钱,身 ...

  9. art-template模板渲染及其过滤器

    原生语法 使用原生语法,需要导入template-native.js文件.在HTML中定义模板,注意模板的位置,不要放到被渲染区域,防止模板丢失. <script id="tpl&qu ...

  10. C# Distanct List集合

    简单一维集合的使用 List<int> ages = new List<int> { 21, 46, 46, 55, 17, 21, 55, 55 }; List<str ...