最近一段时间，重新研读了谷歌的mobilenet系列，对该系列有新的认识。

1.MobileNet V1

这篇论文是谷歌在2017年提出了，专注于移动端或者嵌入式设备中的轻量级CNN网络。该论文最大的创新点是，提出了深度可分离卷积（depthwise separable convolution）。

首先，我们分析一下传统卷积的运算过程，请参考第一个动图或者这篇博客。可以看出，传统卷积分成两步，每个卷积核与每张特征图进行按位相成然后进行相加，此时，计算量为$D_F*D_F*D_K*D_K*M*N$，其中$D_F$为特征图尺寸，$D_K$为卷积核尺寸，M为输入通道数，N为输出通道数。

然后，重点介绍一下深度可分离卷积。深度可分离卷积将传统卷积的两步进行分离开来，分别是depthwise和pointwise。从下面的图可以看出，首先按照通道进行计算按位相乘的计算，此时通道数不改变；然后依然得到将第一步的结果，使用1*1的卷积核进行传统的卷积运算，此时通道数可以进行改变。使用了深度可分离卷积，其计算量为$D_K*D_K*M*D_F*D_F+1*1*M*N*D_F*D_F$。

通过深度可分离卷积，计算量将会下降$\frac{1}{N}+\frac{1}{D_K^{2}}$，当$D_K=3$时，深度可分离卷积比传统卷积少8到9倍的计算量。

这种深度可分离卷积虽然很好的减少计算量，但同时也会损失一定的准确率。从下图可以看到，使用传统卷积的准确率比深度可分离卷积的准确率高约1%，但计算量却增大了9倍。

最后给出v1的整个模型结构，该网络有28层。可以看出，该网络基本去除了pool层，使用stride来进行降采样（难道是因为pool层的速度慢？）。

其次，v1还存在以下的亮点，值得关注一下：

depthwise后接BN层和RELU6，pointwise后也接BN层和RELU6，如下图所示（图中应该是RELU6）。左图是传统卷积，右图是深度可分离卷积。更多的ReLU6，增加了模型的非线性变化，增强了模型的泛化能力。

v1中使用了RELU6作为激活函数，这个激活函数在float16/int8的嵌入式设备中效果很好，能较好地保持网络的鲁棒性。

v1还给出了2个超参，宽度乘子α和分辨率乘子β，通过这两个超参，可以进一步缩减模型，文章中也给出了具体的试验结果。此时，我们反过来看，扩大宽度和分辨率，都能提高网络的准确率，但如果单一提升一个的话，准确率很快就会达到饱和，这就是2019年谷歌提出efficientnet的原因之一，动态提高深度、宽度、分辨率来提高网络的准确率。

2.MobileNet V2

MobileNet V2发表与2018年，时隔一年，谷歌的又一力作。V2在V1的基础上，引入了Inverted Residuals和Linear Bottlenecks。

为什么要引入这两个模块呢？参考这篇文章，有人发现，在使用V1的时候，发现depthwise部分的卷积核容易费掉，即卷积核大部分为零。作者认为这是ReLU引起的。文章的一个章节来介绍这个理论，但小弟水平有限，还理解不了。

简单来说，就是当低维信息映射到高维，经过ReLU后再映射回低维时，若映射到的维度相对较高，则信息变换回去的损失较小；若映射到的维度相对较低，则信息变换回去后算是很大，如下图所示。因此，认为对低维度做ReLU运算，很容易造成信息的丢失。而在高维度进行ReLU运算的话，信息的丢失则会很少。另外一种解释是，高维信息变换回低维信息时，相当于做了一次特征压缩，会损失一部分信息，而再进过relu后，损失的部分就更加大了。作者为了这个问题，就将ReLU替换成线性激活函数。

Inverted Residuals

这个可以翻译成“倒残差模块”。什么意思呢？我们来对比一下残差模块和倒残差模块的区别。

残差模块：输入首先经过1*1的卷积进行压缩，然后使用3*3的卷积进行特征提取，最后在用1*1的卷积把通道数变换回去。整个过程是“压缩-卷积-扩张”。这样做的目的是减少3*3模块的计算量，提高残差模块的计算效率。
倒残差模块：输入首先经过1*1的卷积进行通道扩张，然后使用3*3的depthwise卷积，最后使用1*1的pointwise卷积将通道数压缩回去。整个过程是“扩张-卷积-压缩”。为什么这么做呢？因为depthwise卷积不能改变通道数，因此特征提取受限于输入的通道数，所以将通道数先提升上去。文中的扩展因子为6。

Linear Bottleneck

这个模块是为了解决一开始提出的那个低维-高维-低维的问题，即将最后一层的ReLU替换成线性激活函数，而其他层的激活函数依然是ReLU6。

将两个模块进行结合，如下图所示。当stride=1时，输入首先经过1*1的卷积进行通道数的扩张，此时激活函数为ReLU6；然后经过3*3的depthwise卷积，激活函数是ReLU6；接着经过1*1的pointwise卷积，将通道数压缩回去，激活函数是linear；最后使用shortcut，将两者进行相加。而当stride=2时，由于input和output的特征图的尺寸不一致，所以就没有shortcut了。

最后，给出v2的网络结构。其中，t为扩张系数，c为输出通道数，n为该层重复的次数，s为不长。可以看出，v2的网络比v1网络深了很多，v2有54层。

当然，还不能少了性能对比图。v2的准确率比v1高出不少，延时也低了很多，是一款不错的轻量化网络。

3.MoblieNet V3

MobileNet V3发表于2019年，该v3版本结合了v1的深度可分离卷积、v2的Inverted Residuals和Linear Bottleneck、SE模块，利用NAS（神经结构搜索）来搜索网络的配置和参数。这种方式已经远远超过了人工调参了，太恐怖了。

v3在v2的版本上有以下的改进：

作者发现，计算资源耗费最多的层是网络的输入和输出层，因此作者对这两部分进行了改进。如下图所示，上面是v2的最后输出几层，下面是v3的最后输出的几层。可以看出，v3版本将平均池化层提前了。在使用1*1卷积进行扩张后，就紧接池化层-激活函数，最后使用1*1的卷积进行输出。通过这一改变，能减少10ms的延迟，提高了15%的运算速度，且几乎没有任何精度损失。其次，对于v2的输入层，通过3*3卷积将输入扩张成32维。作者发现使用ReLU或者switch激活函数，能将通道数缩减到16维，且准确率保持不变。这又能节省3ms的延时。

由于嵌入式设备计算sigmoid是会耗费相当大的计算资源的，因此作者提出了h-switch作为激活函数。且随着网络的加深，非线性激活函数的成本也会随之减少。所以，只有在较深的层使用h-switch才能获得更大的优势。

$$h-swish[x]=x\frac{ReLU6(x+3))}{6}$$

在v2的block上引入SE模块，SE模块是一种轻量级的通道注意力模块。在depthwise之后，经过池化层，然后第一个fc层，通道数缩小4倍，再经过第二个fc层，通道数变换回去（扩大4倍），然后与depthwise进行按位相加。

最后，v3的结构如下图所示。作者提供了两个版本的v3，分别是large和small，对应于高资源和低资源的情况。两者都是使用NAS进行搜索出来的。

从下面的试验结果，可以看出v3-large的准确率和计算速度都高于v2。所以，AutoML搭出来的网络，已经能代替大部分调参了。

重新回顾了mobilenet系列，可以看出，准确率在逐步提高，延时也不断下降。虽然在imagenet上的准确率不能达到state-of-art，但在同等资源消耗下，其优势就能大大体现出来。

最后，给出3个版本的caffe模型：

mobilenet v1：https://github.com/shicai/MobileNet-Caffe/blob/master/mobilenet_deploy.prototxt

mobilenet v2：https://github.com/shicai/MobileNet-Caffe/blob/master/mobilenet_v2_deploy.prototxt

mobilenet v3：https://github.com/jixing0415/caffe-mobilenet-v3

参考文献

[1] https://zhuanlan.zhihu.com/p/70703846

MobileNet系列的更多相关文章

卷积神经网络学习笔记——轻量化网络MobileNet系列（V1，V2，V3）
完整代码及其数据,请移步小编的GitHub地址传送门:请点击我如果点击有误:https://github.com/LeBron-Jian/DeepLearningNote 这里结合网络的资料和Mo ...
MobileNet系列之MobileNet_v2
MobileNet系列之MobileNet_v1 Inception系列之Inception_v1 Inception系列之Batch Normalization Inception系列之Ince ...
轻量化模型之MobileNet系列
自 2012 年 AlexNet 以来,卷积神经网络在图像分类.目标检测.语义分割等领域获得广泛应用.随着性能要求越来越高,AlexNet 已经无法满足大家的需求,于是乎各路大牛纷纷提出性能更优越的 ...
MovibleNet
MobileNet MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications MobileN ...
MobileNetV1/V2/V3简述 | 轻量级网络
MobileNet系列很重要的轻量级网络家族,出自谷歌,MobileNetV1使用深度可分离卷积来构建轻量级网络,MobileNetV2提出创新的inverted residual with line ...
深度学习论文翻译解析（十九）：Searching for MobileNetV3
论文标题:Searching for MobileNetV3 论文作者:Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Che ...
CNN结构演变总结（一）经典模型
导言: 自2012年AlexNet在ImageNet比赛上获得冠军,卷积神经网络逐渐取代传统算法成为了处理计算机视觉任务的核心. 在这几年,研究人员从提升特征提取能力,改进回传梯度更新效果 ...
旷视MegEngine核心技术升级
旷视MegEngine核心技术升级 7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta ...
计算机视觉--CV技术指南文章汇总
前言本文汇总了过去本公众号原创的.国外博客翻译的.从其它公众号转载的.从知乎转载的等一些比较重要的文章,并按照论文分享.技术总结三个方面进行了一个简单分类.点击每篇文章标题可阅读详细内容欢迎关注 ...

随机推荐

路由设置中"DHCP服务器"启用或不启用是干嘛的?
“DHCP服务器”启用的话,每一台连接这个路由器的电脑都会自动获取一个IP地址,并且不会跟其他电脑的想冲突:“DHCP服务器”不启用就必须手动给每一台连接这个路由器的电脑设置本地连接里面的“inter ...
Jmeter测试结果分析（下）
Jmeter测试结果分析(下) 前文再续,续接上一回.上一篇讲了如何利用Assertion将测试结果进行初步的筛选.那么,当我们拿到了测试结果之后,我们应该如何去看待它们呢?它们又是怎么来的呢? 一. ...
了解XPath与XPath轴
XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. 节点(Node) 在 XPath 中,有七种类型的节点:元素.属性.文本.命名空间.处理 ...
spark map和mapPartitions的区别
package dayo1 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.Arra ...
小程序请求豆瓣API报403解决方法
微信小程序使用wx.request API请求豆瓣公开api的时候,会报一个403(Forbidden)的错误.这是为什么呢?是由于来自小程序的调用过多,豆瓣来自于小程序的调用被禁止.这里收集以下三种 ...
Leetcode之动态规划（DP）专题-72. 编辑距离（Edit Distance）
Leetcode之动态规划(DP)专题-72. 编辑距离(Edit Distance) 给定两个单词 word1 和 word2,计算出将 word1 转换成 word2 所使用的最少操作数 . 你可 ...
【C/C++】什么是类型安全
什么是类型安全转自:http://hi.baidu.com/chenfalei/blog/item/f33ac0133500ac21dd540186.html 编程语言的最终梦想:静态类型安全常听 ...
python+selenium显示等待、隐式等待和强制等待的区别
在实际使用selenium或者appium时,等待下个等待定位的元素出现,特别是web端加载的过程,都需要用到等待,而等待方式的设置是保证脚本稳定有效运行的一个非常重要的手段,在selenium中(a ...
jmeter—获取当前时间（年、月、日），往前/往后n天
import java.util.Calendar; Calendar cal = Calendar.getInstance(); int day = cal.get(Calendar.DATE); ...
Spring @Import注解 —— 导入资源
在应用中,有时没有把某个类注入到IOC容器中,但在运用的时候需要获取该类对应的bean,此时就需要用到@Import注解.示例如下: 先创建两个类,不用注解注入到IOC容器中,在应用的时候在导入到当前 ...

MobileNet系列