论文解读《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》

感知野的概念尤为重要，对于理解和诊断CNN网络是否工作，其中一个神经元的感知野之外的图像并不会对神经元的值产生影响，所以去确保这个神经元覆盖的所有相关的图像区域是十分重要的；
需要对输出图像的单个像素进行预测的任务，使每一个输出像素具有一个比较大的感知野是十分重要的，在做预测试时，每一个关键的信息就不会被遗漏。

增大感知野的方法：理论上可以通过搭建更多的层的网络实现感知域的线性增加，靠着卷积过滤器的增加；也可以使用下采样的方法，池化，增加感知域，目前通常都结合了这两种技术；

堆叠不同层的convnets, 最后输出矩阵的单个神经元的表征的感知域的大小显然不一样；感知域越大，这意味着它应该学习距离更远的对象之间的关系

empirical，层数越深，能够感知的patch的尺寸也越大，但是这样会付出更多的计算成本和时间消耗，所以需要通过traceback：

function receptive_field_sizes()

% compute input size from a given output size

f = @(output_size, ksize, stride) (output_size - 1) * stride + ksize;

%% n=1 discriminator

% fix the output size to 1 and derive the receptive field in the input

out = ...

f(f(f(1, 4, 1), ...   % conv2 -> conv3

             4, 1), ...   % conv1 -> conv2

             4, 2);       % input -> conv1

fprintf('n=1 discriminator receptive field size: %d\n', out);

%% n=2 discriminator

% fix the output size to 1 and derive the receptive field in the input

out = ...

f(f(f(f(1, 4, 1), ...   % conv3 -> conv4

             4, 1), ...   % conv2 -> conv3

             4, 2), ...   % conv1 -> conv2

             4, 2);       % input -> conv1

fprintf('n=2 discriminator receptive field size: %d\n', out);

%% n=3 discriminator

% fix the output size to 1 and derive the receptive field in the input

out = ...

f(f(f(f(f(1, 4, 1), ...   % conv4 -> conv5

             4, 1), ...   % conv3 -> conv4

             4, 2), ...   % conv2 -> conv3

             4, 2), ...   % conv1 -> conv2

             4, 2);       % input -> conv1

fprintf('n=3 discriminator receptive field size: %d\n', out);

%% n=4 discriminator

% fix the output size to 1 and derive the receptive field in the input

out = ...

f(f(f(f(f(f(1, 4, 1), ...   % conv5 -> conv6

             4, 1), ...   % conv4 -> conv5

             4, 2), ...   % conv3 -> conv4

             4, 2), ...   % conv2 -> conv3

             4, 2), ...   % conv1 -> conv2

             4, 2);       % input -> conv1

fprintf('n=4 discriminator receptive field size: %d\n', out);

%% n=5 discriminator

% fix the output size to 1 and derive the receptive field in the input

out = ...

f(f(f(f(f(f(f(1, 4, 1), ...   % conv6 -> conv7

             4, 1), ...   % conv5 -> conv6

             4, 2), ...   % conv4 -> conv5

             4, 2), ...   % conv3 -> conv4

             4, 2), ...   % conv2 -> conv3

             4, 2), ...   % conv1 -> conv2

             4, 2);       % input -> conv1

fprintf('n=5 discriminator receptive field size: %d\n', out);

作者发现并不是所有在感知域中的像素都图对于输出单元具有相同的贡献：直观的来说，感知野中间的像素对于输出会有更大的影响。

前向传播中，感知野中间的像素能够传播信息到输出通过许多不同的路径，边缘的像素就相对较少。这就造成了，在反向中，通过这些路径传来的梯度，使得中间像素有更大量级的梯度更新。(In the forward pass, central pixels can propagate information to the output through many different paths, while the pixels in the outer area of the receptive field have very few paths to propagate its impact. In the backward pass, gradients from an output unit are propagated across all the paths, and therefore the central pixels have a much larger magnitude for the gradient from that output).

实验

如图，感知野的影响分布是呈现高斯分布的，作者发现了理论感知域中的有效部分其实是非常微小的，因为高斯分布从中间衰减得十分的快。

实验的目的是：确定多少个输入感知野的像素点影响着输出神经元；

--如上图所示，在残差网络中不使用池化和下采样方法，随着训练的进行，有效感知野的范围在提升，同时即时感知野的大小已经大于了整个图像的整个大小，有效感知野的范围还是不能够覆盖整个图像。

--在残差网络架构的模型中，使用subsampling 技术，理论感知域增加的非常大，但是有效感知域也是十分小的（如上图的右边Cam所示，堆叠多个VGG）；有效减缓有效感知域的高斯分布的方法带来的影响

-- 和直接搭建多层卷积网络相比，下采样和扩张卷积（ dilate conv）技术都可以增大有效感知野的大小，如下图所示：

如何有效的对抗感知野的高斯分布呢？

-- 操纵权重的初始化使卷积核中心的权值更小，外部的权值更大，优化 w 去最大化有效感知野的大小。

解决这个优化问题，就得到了这样一个解:在卷积核的4个角上平均分配权值，而其他地方都为0，===》得到一些这样分布的初始化方法可以提高整体的速度

-- 认为从CNN的结构来看是一个很好的增大有效感知域的措施，比如 dilate conv，skip-connection 使得感知野更小了，dropout 并不会改变有效感知野

思考

很多方法的模型并没有考虑有效感知野，而是默认搭建的模型理论感知野和图像的大小差不多就为最佳，其实有效感知野只是一小部分，存在模型性能的加大提升空间；

可以在现有方法的改进中，引入有效感知野的想法，使用扩张卷积和逆高斯分布的权重初始化等方法，抵消感知野的高斯分布影响；

论文解读《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》的更多相关文章

《Population Based Training of Neural Networks》论文解读
很早之前看到这篇文章的时候,觉得这篇文章的思想很朴素,没有让人眼前一亮的东西就没有太在意.之后读到很多Multi-Agent或者并行训练的文章,都会提到这个算法,比如第一视角多人游戏(Quake ...
ImageNet Classification with Deep Convolutional Neural Networks 论文解读
这个论文应该算是把深度学习应用到图片识别(ILSVRC,ImageNet large-scale Visual Recognition Challenge)上的具有重大意义的一篇文章.因为在之前,人们 ...
《Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks》论文笔记
论文题目<Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Ne ...
Quantization aware training 量化背后的技术——Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference
1,概述模型量化属于模型压缩的范畴,模型压缩的目的旨在降低模型的内存大小,加速模型的推断速度(除了压缩之外,一些模型推断框架也可以通过内存,io,计算等优化来加速推断). 常见的模型压缩算法有:量化 ...
Training Deep Neural Networks
http://handong1587.github.io/deep_learning/2015/10/09/training-dnn.html //转载于 Training Deep Neural ...
Training (deep) Neural Networks Part: 1
Training (deep) Neural Networks Part: 1 Nowadays training deep learning models have become extremely ...
[CVPR2015] Is object localization for free? – Weakly-supervised learning with convolutional neural networks论文笔记
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 } p. ...
Training spiking neural networks for reinforcement learning
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 原文链接:https://arxiv.org/pdf/2005.05941.pdf Contents: Abstract Introduc ...
CVPR 2018paper: DeepDefense: Training Deep Neural Networks with Improved Robustness第一讲
前言:好久不见了,最近一直瞎忙活,博客好久都没有更新了,表示道歉.希望大家在新的一年中工作顺利,学业进步,共勉! 今天我们介绍深度神经网络的缺点:无论模型有多深,无论是卷积还是RNN,都有的问题:以图 ...
论文翻译：BinaryConnect: Training Deep Neural Networks with binary weights during propagations
目录摘要 1.引言 2.BinaryConnect 2.1 +1 or -1 2.2确定性与随机性二值化 2.3 Propagations vs updates 2.4 Clipping 2.5 A ...

随机推荐

ASP.NET Web API 2系列(四)：基于JWT的token身份认证方案
1.引言通过前边的系列教程,我们可以掌握WebAPI的初步运用,但是此时的API接口任何人都可以访问,这显然不是我们想要的,这时就需要控制对它的访问,也就是WebAPI的权限验证.验证方式非常多,本 ...
执行引擎（Execution Engine）基础知识
概述执行引擎是Java虚拟机的核心组成部分之一虚拟机是一个相对于"物理机"的概念,这两种机器都有代码执行能力,其区别是物理机的执行引擎是直接建立在处理器.缓存.指令集和操作系统 ...
刷题[BJDCTF 2nd]简单注入
解题思路打开发现登陆框,随机输入一些,发现有waf,然后回显都是同样的字符串.fuzz一波,发现禁了挺多东西的. select union 等这里猜测是布尔盲注,错误的话显示的是:You konw ...
ubuntu 开启samba
sudo apt-get update sudo apt-get install samba samba-common sudo mkdir /home/vagrant/share sudo chmo ...
听我的，看完这30道MySQL基础题再去面试
可以微信搜索公众号「后端技术学堂」回复「1024」获取50本计算机电子书,回复「进群」拉你进读者技术交流群,文章每周持续更新,我们下期见! 一个典型的互联网产品架构包含接入层.逻辑处理层以及存储层 ...
windows 10 启动修复无法自动修复此计算机
1. 失败后有两个选项卡:关机和高级选项,选择高级选项 2. 然后选择疑难解答 3. 选择高级选项 4. 选择回退到以前的版本接下来需要登录,选择恢复到上一次正常启动的状态,注意选择保留数据,会有提 ...
决策树防止过拟合（预剪枝(Pre-Pruning)）
预剪枝(Pre-Pruning):预剪枝就是在构造决策树的过程中,先对每个结点在划分前进行估计,若果当前结点的划分不能带来决策树模型泛华性能的提升,则不对当前结点进行划分并且将当前结点标记为叶结点.
《RESTful Web APIs》书中有一段POST API示例，现实中我们如何测试这个示例？书中没有说，Let's try it！
<RESTful Web APIs>书中有一段POST API示例: I then send the filled-out template as part of an HTTP POST ...
OneWire应用单总线温度传感器DS18系列
OneWire DS18S20, DS18B20, DS1822 Temperature DS18B20 The DS18B20 digital thermometer provides 9-bit ...
dsu on tree 入门
Dus on tree 树上并查集?. 啊这,并不是的啦,他利用了树上启发式合并的思想. 他主要解决不带修改且主要询问子树信息的树上问题. 先来看到例题,CF600E . 这不就是树上莫队的经典题吗? ...

论文解读《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》

论文解读《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》的更多相关文章

随机推荐

热门专题