详解ResNet 网络,如何让网络变得更“深”了
摘要:残差网络(ResNet)的提出是为了解决深度神经网络的“退化”(优化)问题。ResNet 通过设计残差块结构,调整模型结构,让更深的模型能够有效训练更训练。
本文分享自华为云社区《Backbone 网络-ResNet 网络详解》,作者: 嵌入式视觉 。
摘要
残差网络(ResNet
)的提出是为了解决深度神经网络的“退化”(优化)问题。
有论文指出,神经网络越来越深的时候,反传回来的梯度之间的相关性会越来越差,最后接近白噪声。即更深的卷积网络会产生梯度消失问题导致网络无法有效训练。
而 ResNet
通过设计残差块结构,调整模型结构,让更深的模型能够有效训练更训练。目前 ResNet 被当作目标检测、语义分割等视觉算法框架的主流 backbone。
一,残差网络介绍
作者认为,假设一个比较浅的卷积网络已经可以达到不错的效果,那么即使新加了很多卷积层什么也不做,模型的效果也不会变差。但,之所以之前的深度网络出现退化问题,是因为让网络层什么都不做恰好是当前神经网络最难解决的问题之一!
因此,作者可以提出残差网络的初衷,其实是让模型的内部结构至少有恒等映射的能力(什么都不做的能力),这样可以保证叠加更深的卷积层不会因为网络更深而产生退化问题!
1.1,残差结构原理
对于 VGG 式的卷积网络中的一个卷积 block,假设 block 的输入为 xx ,期望输出为 H(x)H(x),block 完成非线性映射功能。
那么,如何实现恒等映射呢?
假设直连(plain
)卷积 block 的输入为 xx ,block 期望输出为 H(x)H(x),我们一般第一反应是直接让学习 H(x)=xH(x)=x,但是这很难!
对此,作者换了个角度想问题,既然 H(x)=xH(x)=x 很难学习到,那我就将 H(x)H(x) 学习成其他的,而让恒等映射能力通过其他结构来实现,比如,直接加个 shorcut 不就完事了!这样只要直连 block 网络输出学习为 0 就行了。而让直连卷积 block 输出学习为 0 比学习成恒等映射的能力是要简单很多的!毕竟前者通过 L2 正则化就能实现了!
因此,作者将网络设计为 H(x)=F(x)+xH(x)=F(x)+x,即直接把恒等映射作为网络的一部分,只要 F(x)=0F(x)=0,即实现恒等映射: H(x)=xH(x)=x。残差块结构(resdiual block
)。基本残差块结构如下图所示:
从图中可以看出,一个残差块有 22 条路径 F(x)F(x) 和 xx,F(x)F(x) 路径拟合残差 H(x)−xH(x)−x,可称为残差路径,xx 路径为恒等映射(identity mapping),称其为”shortcut”。图中的 ⊕⊕ 为逐元素相加(element-wise addition
),要求参与运算的 F(x)F(x) 和 xx 的尺寸必须相同!
这就把前面的问题转换成了学习一个残差函数 F(x)=H(x)−xF(x)=H(x)−x。
综上总结:可以认为 Residual Learning 的初衷(原理),其实是让模型的内部结构至少有恒等映射的能力。以保证在堆叠网络的过程中,网络至少不会因为继续堆叠而产生退化!
注意,很多博客片面解释 resnet 解决了梯度消失问题所以有效的的观点是片面的且方向也错了!resnet 到底解决了什么问题以及为什么有效问题的更细节回答,可以参考这个回答。
1.2,两种不同的残差路径
在 ResNet 原论文中,残差路径的设计可以分成 22 种,
- 一种没有
bottleneck
结构,如图3-5左所示,称之为“basic block”,由 2 个 3×33×3 卷积层构成。2 层的残差学习单元其两个输出部分必须具有相同的通道数(因为残差等于目标输出减去输入,即 H(x)−xH(x)−x,所以输入、输出通道数目需相等)。 - 另一种有
bottleneck
结构,称之为 “bottleneck block”,对于每个残差函数 FF,使用 33 层堆叠而不是 2 层,3 层分别是 1×11×1,3×33×3 和 1×11×1 卷积。其中 1×11×1 卷积层负责先减小然后增加(恢复)维度,使 3×33×3 卷积层的通道数目可以降低下来,降低参数量减少算力瓶颈(这也是起名 bottleneck 的原因 )。50
层以上的残差网络都使用了 bottleneck block 的残差块结构,因为其可以减少计算量和降低训练时间。
3 层的残差学习单元是参考了 Inception Net 结构中的
Network in Network
方法,在中间 3×33×3 的卷积前后使用 1×11×1 卷积,实现先降低维度再提升维度,从而起到降低模型参数和计算量的作用。
1.3,两种不同的 shortcut 路径
shortcut
路径大致也分成 22 种,一种是将输入 xx 直接输出,另一种则需要经过 1×11×1 卷积来升维或降采样,其是为了将 shortcut
输出与 F(x)
路径的输出保持形状一致,但是其对网络性能的提升并不明显,两种结构如下图所示。
Residual Block(残差块)之间的衔接,在原论文中,F(x)+xF(x)+x 是经过 ReLU 后直接作为下一个 block 的输入 xx。
二,ResNet18 模型结构分析
残差网络中,将堆叠的几层卷积 layer
称为残差块(Residual Block
),多个相似的残差块串联构成 ResNet。ResNet18 和 ResNet34 Backbone用的都是两层的残差学习单元(basic block
),更深层的ResNet则使用的是三层的残差学习单元(bottle block
)。
ResNet18 其结构如下图所示。
ResNet18 网络具体参数如下表所示。
假设图像输入尺寸为,1024×20481024×2048,ResNet 共有五个阶段。
- 其中第一阶段的
conv1 layer
为一个 7×77×7 的卷积核,stride
为 2,然后经过池化层处理,此时特征图的尺寸已成为输入的1/4
,即输出尺寸为 512×1024512×1024。 - 接下来是四个阶段,也就是表格中的四个
layer
:conv2_x、conv3_x、conv4_x、conv5_x,后面三个都会降低特征图尺寸为原来的1/2
,特征图的下采样是通过步长为2
的 conv3_1, conv4_1 和 conv5_1 执行。所以,最后输出的 feature_map 尺寸为输入尺寸降采样 32=4×2×2×232=4×2×2×2 倍。
在工程代码中用 make_layer
函数产生四个 layer
即对应 ResNet 网络的四个阶段。根据不同层数的 ResNet(N):
- 输入给每个 layer 的
blocks
是不同的,即每个阶段(layer
)里面的残差模块数目不同(即layers
列表不同) - 采用的
block
类型(basic
还是bottleneck
版)也不同。
本文介绍的 ResNet18,使用 basic block
,其残差模块数量(即units数量)是 [2, 2, 2, 2],又因为每个残差模块中只包含了 2 层卷积,故残差模块总的卷积层数为 (2+2+2+2)*2=16,再加上第一层的卷积和最后一层的分类,总共是 18 层,所以命名为 ResNet18。
ResNet50 为 [3, 4, 6, 3]。
个人思考
看了后续的 ResNeXt
、ResNetv2
、Densenet
、CSPNet
、VOVNet
等论文,越发觉得 ResNet
真的算是 Backone
领域划时代的工作了,因为它让深层神经网络可以训练,基本解决了深层神经网络训练过程中的梯度消失问题,并给出了系统性的解决方案(两种残差结构),即系统性的让网络变得更“深”了。而让网络变得更“宽”的工作,至今也没有一个公认的最佳方案(Inception
、ResNeXt
等后续没有广泛应用),难道是因为网络变得“宽”不如“深”更重要,亦或是我们还没有找到一个更有效的方案。
参考资料
- Deep Residual Learning for Image Recognition
- https://github.com/pytorch/vision/blob/main/torchvision/models/resnet.py
详解ResNet 网络,如何让网络变得更“深”了的更多相关文章
- Firebug控制台详解,让调试js代码变得更简单
http://www.open-open.com/lib/view/open1373120100347.html Firebug是网页开发的利器,能够极大地提升工作效率. Firebug控制台详解 控 ...
- [linux]netstat命令详解-显示linux中各种网络相关信息
1.功能与说明 netstat 用于显示linux中各种网络相关信息.如网络链接 路由表 接口状态链接 多播成员等等. 2.参数含义介绍 -a (all)显示所有选项,默认不显示LISTEN相关-t ...
- db2数据库新手可能碰到的问题及详解(部分内容来自网络搜索)
一.db2安装好之后出现乱码,菜单栏呈现方框状,此时选择菜单第五项,点击选择下拉菜单中的最后一项,打开选择标签卡的第三项(字体),如果是无衬线都改为有衬线,如果是有衬线改为无衬线.乱码即可解决(网上一 ...
- Hadoop_10_shuffle02_详解Shuffle过程【来源网络】推荐更为详细
网址:http://www.cnblogs.com/felixzh/p/4680808.html Shuffle过程,也称Copy阶段.reduce task从各个map task上远程拷贝一片数据, ...
- JAVA中IO和NIO的详解分析,内容来自网络和自己总结
用一个例子来阐释: 一辆客车上有10个乘客,他们的目的地各不相同,当没有售票员的时候,司机就需要不断的询问每一站是否有乘客需要下车,需要则停下,不需要则继续开车,这种就是阻塞的方式. 当有售票员的时候 ...
- 详解C#的协变和逆变
一.使用协变(Covariance)和逆变(Contravariance )能够实现数组之间.委托实例和方法之间.泛型委托实例之间.泛型接口的变量和泛型类型的对象之间.泛型接口的变量之间的隐式转换:使 ...
- iOS开发——网络编程Swift篇&(八)SwiftyJSON详解
SwiftyJSON详解 最近看了一些网络请求的例子,发现Swift在解析JSON数据时特别别扭,总是要写一大堆的downcast(as?)和可选(Optional),看?号都看花了.随后发现了这个库 ...
- Docker基础 :网络配置详解
本篇文章将讲述 Docker 的网络功能,包括使用端口映射机制来将容器内应用服务提供给外部网络,以及通过容器互联系统让多个容器之间进行快捷的网络通信,有兴趣的可以了解下. 大量的互联网应用服务包含多个 ...
- Apache日志配置详解(rotatelogs LogFormat)
logs/error_logCustomLog logs/access_log common--默认为以上部分 修改为如下: ErrorLog "|/usr/sbin/rotatelogs ...
- 《OSPF和IS-IS详解》
<OSPF和IS-IS详解> 基本信息 作者: (美)Jeff Doyle 译者: 孙余强 出版社:人民邮电出版社 ISBN:9787115347886 上架时间:2014-4-25 出版 ...
随机推荐
- curl从入门到精通教程
直接看英文版 https://catonmat.net/cookbooks/curl
- 在Unity3D中开发的坦克履带模拟器Tank Track Simulator
为了在Unity游戏中比较真实地模拟坦克履带的运动,本人便开发了这款Tank Track Simulator插件 特点 比较真实地模拟了坦克履带的运动. 本插件中包含了一辆M1A2坦克模型,已经将这个 ...
- bzoj 2337
有人说这题像游走... 关于游走的思想,他死了... 明明直接从期望dp的角度考虑更简单合理嘛 首先由于是异或运算不妨逐位考虑 对于每一位,设状态$f[i]$表示从第$i$个点到第$n$个点,这一位上 ...
- element UI 选择时间点(可选择某一个或者多个时间点)
html代码如下: <el-date-picker ref="datesRef" type="dates" v-model="searchObj ...
- k8s集群查看node和pod的实时资源使用情况
一.部署步骤 1.准备metrics-server官方yaml文件 2.部署metrics-server 3.查看资源使用情况 二.准备metrics-server官方yaml文件 [root@loc ...
- Dubbo调用 Mybatis 实体类一对多时,报错
添加fetchType="eager"属性 ,急加载 作为笔记,供个人参考
- ST能维护的性质
总结: 其实ST表不仅能处理最大值/最小值,凡是符合结合律且可重复贡献的信息查询都可以使用ST表高效进行.什么叫可重复贡献呢?设有一个二元运算 ,满足 ,则是可重复贡献的.显然最大值.最小值.最大 ...
- css3样式pointer-events,点击穿透和海市蜃楼的效果
css样式pointer-events pointer-events 是CSS3的一个属性,支持的值非常多,其中大部分都是和SVG有关.目前只了解 none 这个值, 其他值后续要补上. pointe ...
- ES搜索高亮分词排序聚合搜索
分词高亮搜索代码 List<A> list = new ArrayList<>(); //设置高亮显示 HighlightBuilder highlightBuilder = ...
- VBA类模块完全教程(www.accessoft.com软件网)
这份礼物送给现在想学习类知识或曾经学过但因为各种原因没有"修成正果"的朋友,我期望的结果是这篇文章后,您可以在类模块中像在标准模块中写代码一样熟练,我也期望不至于太乏味而使您没有耐 ...