YOLOV4各个创新功能模块技术分析（三）

八.数据增强相关-Stylized-ImageNet

论文名称：ImageNet-trained cnns are biased towards texture; increasing shape bias improves accuracy and robustness

论文摘要

为了提高卷积神经网络分类器的性能，提出了区域下降策略。事实证明，可以有效地引导模型关注对象中不易区分的部分（例如，腿而不是人头），从而使网络更好地进行泛化，并具有更好的对象定位能力。另一方面，当前的区域性丢失方法通过叠加一块黑色像素或随机噪声来去除训练图像上的信息像素。这种删除是不可取的，因为会导致信息丢失和培训效率低下。因此，提出了CutMix增强策略：在训练图像中剪切和粘贴面片，其中地面真值标签也与面片的面积成比例地混合。通过有效利用训练像素和保持区域退学的正则化效果，CutMix在CIFAR和ImageNet分类任务以及ImageNet弱监督定位任务中始终优于最新的增强策略。此外，与以前的增强方法不同，CutMix训练的ImageNet分类器在用作预训练模型时，在Pascal检测和MS-COCO图像字幕基准方面获得了一致的性能增益。证明了CutMix提高了模型对输入腐败的鲁棒性及其分布外检测性能。

本文非常有意思，得到的结论非常有意义，可以指导对于某些场景测试失败的分析。本质上本文属于数据增强论文，做的唯一一件事就是：对ImageNet数据集进行风格化。

本文结论是：CNN训练学习到的实际是纹理特征(texture bias)而不是形状特征，这和人类的认知方式有所区别，如论文题目所言，存在纹理偏置。而本文引入风格化imagenet数据集，平衡纹理和形状偏置，提高泛化能力。

本文指出在ImageNet上训练的CNN强烈的偏向于识别纹理而不是形状，这和人的行为是极为不同的，存在纹理偏差，所以提出了Stylized-ImageNet数据，混合原始数据训练就可以实现既关注纹理，也关注形状（也就是论文标题提到的减少纹理偏向，增加形状偏向）。从而不仅更适合人类的行为，更惊讶的是提升了目标检测的精度，以及鲁棒性，更加体现了基于形状表示的优势。

文章从一只披着象皮的猫究竟会被识别为大象还是猫这个问题入手，揭示了神经网络根据物体的texture进行识别而非以为的根据物体的形状。

作者准备了6份数据，分别是正常的图片，灰色图，只包含轮廓的，只包含边缘的，只有纹理没有形状，纹理和形状相互矛盾（大象的纹理，猫的形状），对于第六份数据（纹理和形状冲突的数据），作者采用Stylized-ImageNet随机地将物体的纹理替换掉(也就是本文创新点)，如下（c）所示：

采用了4个主流网络，加上人类直观评估。原图其实是作者除了物体外，其余都是白色背景的数据集，目的是去除干扰。

对于前面5份数据，采用原图和灰度图，神经网络都可以取得非常高的准确率，而对于只包含轮廓和只包含边缘的图片，神经网络的预测准确率则显著降低。更有意思的是，对于只包含纹理的图片，神经网络取得特别高的准确率。因而不难推断出，神经网络在识别中，主要是参考纹理信息而不是形状信息。

作者先构造数据集，然后再进行后面的深入实验，IN就是指的ImageNet,SIN是指的风格化的ImageNet，如下所示

SIN的特点是保留shape，但是故意混淆掉纹理信息。

从上的第一行可以看出，在原始图片IN上训练的模型不能适应去除纹理SIN的图片(IN-SIN)，而使用去除纹理的图片进行训练和测试效果会差于使用原始图片进行训练和测试(SIN-SIN)，这说明纹理信息在图像识别中确实起到了一定的作用，去除了纹理信息会提高模型识别的难度。最后，当使用去除纹理的图片进行训练而在原图进行测试的时候(SIN-IN)，效果比在去除纹理的图片上面效果好(SIN-SIN)。

后面三行的实验采用的是第一行resnet的网络结构，其主要特征是限制模型的感受野，从而让模型无法学习到空间的信息，其对应的感受野分别是33*33，17*17，9*9，对于训练原始的图片，其结果测试误差跟没有加上感受野限制的误差差别不大，从而说明纹理信息起到主导作用(IN-IN)，而对应去除掉纹理信息的图片，其测试结果下降十分明显(SIN-SIN)，说明形状信息起到主要的作用，证明了SIN的模型确实在学习形状的信息而不是纹理的信息。这个实验是要说明提出的SIN数据集由于强制抹掉了固定纹理，网络训练难度增大，在没有限制感受野情况下可以学的蛮好，但是一旦限制了感受野就不行了，说明SIN模型学习到的不仅仅是纹理(因为纹理是局部的，如果依靠纹理来分类，那么准确率应该下降不了这么多)，更多的是依靠shape分类，因为感受野外限制了，导致无法看到整个shape，并且通过更加限制感受野，SIN-SIN准确率下降更多可以发现。也就是说SIN数据集由于替换掉了纹理，迫使网络学习shape和纹理，达到了本文目的。SIN上训练的ResNet50展示出更强的形状偏向，符合人类常理。

增强形状偏向也改变了表示，那么影响了CNN的性能和鲁棒性了吗？设置了两个训练方案：

1 同时在SIN和IN上训练

2 同时在SIN和IN上训练，在IN上微调。称为Shape-ResNet。

作者把去掉纹理的数据和原图一起放进去模型中进行训练，最后用原图进行finetune，发现这种方法可以提高模型的性能。Shape-ResNet超过了原始ResNet的准确率，说明SIN是有用的图像增强。

总结：CNN识别强烈依赖于纹理，而不是全局的形状，但是这是不好的，为了突出形状bias，可以采用本文的SIN做法进行数据增强，SIN混合原始数据训练就可以实现既关注纹理，也关注形状，不仅符合人类直观，也可以提高各种任务的准确率和鲁邦性。所以本文其实是提出了一种新的数据增强策略。是不是很有意思的结论？

九．数据增强相关-label
smooth

论文题目：Rethinking the
inception architecture for computer vision

论文摘要

卷积网络是最先进的计算机视觉解决方案的核心，可用于各种各样的任务。自2014年以来，非常深的卷积网络开始成为主流，在各种基准上产生了巨大的收益。尽管增加的模型大小和计算成本往往会转化为大多数任务的即时质量增益（只要为培训提供足够的标记数据），但计算效率和低参数计数仍然是各种用例（如移动视觉和大数据场景）的有利因素。探索如何通过适当的因子化卷积和积极的正则化来尽可能有效地利用增加的计算量来扩大网络。在ILSVRC 2012分类挑战验证集上进行了基准测试，结果表明，与最新技术相比，本文方法取得了显著的进步：使用一个计算成本为50亿乘加/推断和使用少于2500万个参数的网络进行单帧评估时，最大误差为21.2%，最大误差为5.6%。通过4个模型的集成和多作物评估，报告了验证集上3.5%的前5个错误（测试集上3.6%的错误）和验证集上17.3%的前1个错误。

label
smooth是一个非常有名的正则化手段，防止过拟合，想基本上没有人不知道，故不详说了，核心就是对label进行soft操作，不要给0或者1的标签，而是有一个偏移，相当于在原label上增加噪声，让模型的预测值不要过度集中于概率较高的类别，把一些概率放在概率较低的类别。

十．特征增强相关-DropBlock

论文题目：DropBlock: A
regularization method for convolutional networks

论文地址：https://arxiv.org/abs/1810.12890

开源代码：https://github.com/miguelvr/dropblock

论文摘要

当深度神经网络被过度参数化，并在大量噪声和正则化（如权值衰减和丢失）的情况下进行训练时，它们通常能很好地工作。虽然漏失被广泛地用作全连通层的正则化技术，但对于卷积层，它通常不太有效。卷积层漏失的这种不成功可能是由于卷积层中的激活单元在空间上是相关的，因此尽管漏失，信息仍然可以通过卷积网络流动。因此，需要一种结构形式的辍学来正则化卷积网络。在本文中，我们引入DropBlock，这是一种结构化的dropout形式，其中特征映射的相邻区域中的单元被放在一起。我们发现，除了卷积层外，在跳跃连接中应用DropbBlock可以提高精确度。此外，在训练过程中，逐渐增加的下降单位的数量会导致更好的准确性和对超参数选择的鲁棒性。大量实验表明，DropBlock在卷积网络的正则化中比dropout有更好的性能。在ImageNet分类上，ResNet-50架构与DropBlock实现 78.13%准确度，超过1.6%基线改善。在COCO检测中，DropBlock提高了视网膜的平均精度 36.8%到38.4% 。

由于dropBlock其实是dropout在卷积层上的推广，故很有必须先说明下dropout操作。

dropout，训练阶段在每个mini-batch中，依概率P随机屏蔽掉一部分神经元，只训练保留下来的神经元对应的参数，屏蔽掉的神经元梯度为0，参数不参数与更新。而测试阶段则又让所有神经元都参与计算。

dropout操作流程：参数是丢弃率p

1）在训练阶段，每个mini-batch中，按照伯努利概率分布(采样得到0或者1的向量，0表示丢弃)随机的丢弃一部分神经元（即神经元置零）。用一个mask向量与该层神经元对应元素相乘，mask向量维度与输入神经一致，元素为0或1。

2）然后对神经元rescale操作，即每个神经元除以保留概率1-P,也即乘上1/(1-P)。

3）反向传播只对保留下来的神经元对应参数进行更新。

4）测试阶段，Dropout层不对神经元进行丢弃，保留所有神经元直接进行前向过程。

为啥要rescale呢？是为了保证训练和测试分布尽量一致，或者输出能量一致。可以试想，如果训练阶段随机丢弃，那么其实dropout输出的向量，有部分被屏蔽掉了，可以等下认为输出变了，如果dropout大量应用，那么其实可以等价为进行模拟遮挡的数据增强，如果增强过度，导致训练分布都改变了，那么测试时候肯定不好，引入rescale可以有效的缓解，保证训练和测试时候，经过dropout后数据分布能量相似。

dropout方法多是作用在全连接层上，在卷积层应用dropout方法意义不大。文章认为是因为每个feature map的位置都有一个感受野范围，仅仅对单个像素位置进行dropout并不能降低feature map学习的特征范围，也就是说网络仍可以通过该位置的相邻位置元素去学习对应的语义信息，也就不会促使网络去学习更加鲁邦的特征。

既然单独的对每个位置进行dropout并不能提高网络的泛化能力，那么很自然的，如果按照一块一块的去dropout，就自然可以促使网络去学习更加鲁邦的特征。思路很简单，就是在feature
map上去一块一块的找，进行归零操作，类似于dropout，叫做dropblock。

绿色阴影区域是语义特征，b图是模拟dropout的做法，随机丢弃一些位置的特征，但是作者指出这做法没啥用，因为网络还是可以推断出来，(c)是本文做法。

dropblock有三个比较重要的参数，一个是block_size，用来控制进行归零的block大小；一个是γ，用来控制每个卷积结果中，到底有多少个channel要进行dropblock；最后一个是keep_prob，作用和dropout里的参数一样。

M大小和输出特征图大小一致，非0即1，为了保证训练和测试能量一致，需要和dropout一样，进行rescale。

上述是理论分析，在做实验时候发现，block_size控制为7*7效果最好，对于所有的feature map都一样，γ通过一个公式来控制，keep_prob则是一个线性衰减过程，从最初的1到设定的阈值(具体实现是dropout率从0增加到指定值为止)，论文通过实验表明这种方法效果最好。如果固定prob效果好像不好。实践中，并没有显式的设置的值，而是根据keep_prob(具体实现是反的，是丢弃概率)来调整。

DropBlock in ResNet-50 DropBlock加在哪？最佳的DropBlock配置是block_size=7，在group3和group4上都用。将DropBlock用在skip connection比直接用在卷积层后要好，具体咋用，可以看代码。

classDropBlock2D(nn.Module):    r"""Randomly zeroes 2D spatial blocks of the input tensor.


    As described in the paper    `DropBlock: A regularization method for convolutional networks`_ ,    dropping whole blocks of feature map allows to remove semantic    information as compared to regular dropout.


    Args:        drop_prob (float): probability of an element to be dropped.        block_size (int): size of the block to drop


    Shape:        - Input: `(N, C, H, W)`        - Output: `(N, C, H, W)`


    .. _DropBlock: A regularization method for convolutional networks:       https://arxiv.org/abs/1810.12890


    """


    def__init__(self, drop_prob, block_size):        super(DropBlock2D, self).__init__()


        self.drop_prob = drop_prob        self.block_size = block_size


    defforward(self, x):        # shape: (bsize, channels, height, width)


        assert x.dim() == 4, \            "Expected input with 4 dimensions (bsize, channels, height, width)"


        ifnot self.training or self.drop_prob == 0.:            return x        else:            # get gamma value            gamma = self._compute_gamma(x)


            # sample mask            mask = (torch.rand(x.shape[0], *x.shape[2:]) < gamma).float()


            # place mask on input device            mask = mask.to(x.device)


            # compute block mask            block_mask = self._compute_block_mask(mask)


            # apply block mask            out = x * block_mask[:, None, :, :]


            # scale output            out = out * block_mask.numel() / block_mask.sum()


            return out


    def_compute_block_mask(self, mask):        # 比较巧妙的实现，用max pool来实现基于一点来得到全0区域        block_mask = F.max_pool2d(input=mask[:, None, :, :],                                  kernel_size=(self.block_size, self.block_size),                                  stride=(1, 1),                                  padding=self.block_size // 2)


        if self.block_size % 2 == 0:            block_mask = block_mask[:, :, :-1, :-1]


        block_mask = 1 - block_mask.squeeze(1)


        return block_mask


    def_compute_gamma(self, x):        return self.drop_prob / (self.block_size ** 2)

联合线性调度一起使用，如下所示：

YOLOV4各个创新功能模块技术分析（三）的更多相关文章

YOLOV4各个创新功能模块技术分析（二）
YOLOV4各个创新功能模块技术分析(二) 四.数据增强相关-GridMask Data Augmentation 论文名称:GridMask Data Augmentation 论文地址:https ...
YOLOV4各个创新功能模块技术分析（一）
YOLOV4各个创新功能模块技术分析(一) 简介 yolov4论文:YOLOv4: Optimal Speed and Accuracy of Object Detection arxiv:http ...
从业务流程角度：分析TMS系统各个功能模块
TMS的主要功能是协调承运商.运营商.货主三种角色人员分工合作共同完成运输任务,并实现对运输任务的跟踪管理.本文将按照业务流程顺序对TMS系统各个功能模块进行分析说明. 一.业务描述新零售的兴起及& ...
使用react全家桶制作博客后台管理系统网站PWA升级移动端常见问题处理循序渐进学.Net Core Web Api开发系列【4】：前端访问WebApi [Abp 源码分析]四、模块配置 [Abp 源码分析]三、依赖注入
使用react全家桶制作博客后台管理系统前面的话笔者在做一个完整的博客上线项目,包括前台.后台.后端接口和服务器配置.本文将详细介绍使用react全家桶制作的博客后台管理系统概述该项目是基 ...
视觉SLAM的主要功能模块分析
视觉SLAM的主要功能模块分析一．基本概念 SLAM (simultaneous localization and mapping),也称为CML (Concurrent Mapping and L ...
NetSarang软件中nssock2.dll模块被植入恶意代码技术分析与防护方案
原文地址:http://blog.nsfocus.net/nssock2-dll-module-malicious-code-analysis-report/ NetSarang是一家提供安全连接解决 ...
大数据技术之_14_Oozie学习_Oozie 的简介+Oozie 的功能模块介绍+Oozie 的部署+Oozie 的使用案列
第1章 Oozie 的简介第2章 Oozie 的功能模块介绍2.1 模块2.2 常用节点第3章 Oozie 的部署3.1 部署 Hadoop(CDH版本的)3.1.1 解压缩 CDH 版本的 hado ...
TOF与结构光技术分析
TOF与结构光技术分析一．概述结构光(Structuredlight),通常采用特定波长的不可见的激光作为光源,它发射出来的光带有编码信息,投射在物体上,通过一定算法来计算返回的编码图案的畸变来得 ...
[IC]Lithograph(1)光刻技术分析与展望
文章主体转载自: 1.zol摩尔定律全靠它 CPU光刻技术分析与展望 2.wiki:Extreme ultraviolet lithography 3.ITRS 2012 1. 光刻技术组成和关键点 ...

随机推荐

UVA11020 优势人群（multiset）
题意: 给你N个人,每个人有两个权值,x,y对于某一个人,如果不存在某一个人x' y', x' < x && y' <= y 或者x' <= x & ...
Linux中su、sudo、sudo -i的用法和区别
sudo :暂时切换到超级用户模式以执行超级用户权限,提示输入密码时该密码为当前用户的密码,而不是超级账户的密码.缺点是每次执行超级用户权限都要在命令前加上 sudo ,优点是在当前终端再使用 sud ...
学习Canvas绘图与动画基础绘制直线（二）
1 <!DOCTYPE html> 2 <html> 3 <head lang="en"> 4 <meta charset="U ...
在 GitHub 学习，成长为自己想要的样子｜HelloGitHub 访谈
万事开头难,我们经过长期的策划和筹备,终于推出了 HelloGitHub 采访系列「开源项目作者的访谈」.这是一个采访个人开源项目作者的栏目,内容侧重于开源项目作者与开源的故事. 我们深知想要做好一个 ...
【opencv】Java实现opencv 调用本地摄像头，实现人脸识别、人形识别、人眼识别
本博客为老魏原创,如需转载请留言咨询. 效果预览:(没办法,为了效果只能上像了,丑别介意.哈哈..) 上代码: 1 package com.lw.test; 2 3 import java.awt.G ...
初步了解web
------------------------1.Web应用程序的main方法在哪里------------------------Tomcat:从启动到运行首先,我们是通过执行 Tomcat 的s ...
通过Dapr实现一个简单的基于.net的微服务电商系统(十)——一步一步教你如何撸Dapr之绑定
如果说Actor是dapr有状态服务的内部体现的话,那绑定应该是dapr对serverless这部分的体现了.我们可以通过绑定极大的扩展应用的能力,甚至未来会成为serverless的基础.最开始接触 ...
Spring MVC工作原理及源码解析（一） MVC原理介绍、与IOC容器整合原理
MVC原理介绍 Spring MVC原理图上图是Spring MVC工作原理图(图片来自网上搜索),根据上图,我们可以得知Spring MVC的工作流程如下: 1.用户(客户端,即浏览器)发送请求至 ...
有趣的css—简单的下雨效果
简单的下雨效果前言最近在b站上看到一个下雨效果的视频,感觉思路很清奇,我也按照自己的思路做了一个简单的下雨效果. 由于我制作GIF图片的工具最多只支持制作33FPS的GIF图,所以看起来可能有一点 ...
记一次 .NET 某HIS系统后端服务内存泄漏分析
一:背景 1. 讲故事前天那位 his 老哥又来找我了,上次因为CPU爆高的问题我给解决了,看样子对我挺信任的,这次另一个程序又遇到内存泄漏,希望我帮忙诊断下. 其实这位老哥技术还是很不错的,他既然 ...

YOLOV4各个创新功能模块技术分析（三）

YOLOV4各个创新功能模块技术分析（三）的更多相关文章

随机推荐

热门专题