本文翻译自A guide to receptive field arithmetic for Convolutional Neural Networks（可能需要翻墙才能访问），方便自己学习和参考。若有侵权，还请告知。

感受野（receptive field）可能是卷积神经网络（Convolutional Neural Network，CNNs）中最重要的概念之一，值得我们关注和学习。当前流行的物体识别方法的架构大都围绕感受野的设计。但是，当前并没有关于CNN感受野计算和可视化的完整指南。本教程拟填补空白，介绍CNN中特征图的可视化方法，从而揭示感受野的原理以及任意CNN架构中感受野的计算。我们还提供了代码实现证明计算的正确性，这样大家可以从感受野的计算开始研究CNN，从而更加深刻的理解CNN的架构。

本文假设读者已经熟悉CNN的思想，特别是卷积（convolutional）和池化（pooling）操作，当然你可以参考[1603.07285] A guide to convolution arithmetic for deep learning，回顾CNN的相关知识。如果你对CNNs已经有所了解，相信不超过半个小时就可以完成本文的阅读。实际上，本文受上述论文的启发，文中也采用了相似的表示符号。

The fixed-sized CNN feature map visualization

图1 CNN特征图可视化的两种方式。

如图1所示，我们采用卷积核C的核大小（kernel size）k=3*3，填充大小（padding size）p=1*1，步长（stride）s=2*2。（图中上面一行）对5*5的输入特征图进行卷积生成3*3的绿色特征图。（图中下面一行）对上面绿色的特征图采用相同的卷积操作生成2*2的橙色特征图。（图中左边一列）按列可视化CNN特征图，如果只看特征图，我们无法得知特征的位置（即感受野的中心位置）和区域大小（即感受野的大小），而且无法深入了解CNN中的感受野信息。（图中右边一列）CNN特征图的大小固定，其特征位置即感受野的中心位置。

感受野表示输入空间中一个特定CNN特征的范围区域（The receptive field is defined as the region in the input space that a particular CNN’s feature is looking at）。一个特征的感受野可以采用区域的中心位置和特征大小进行描述。图1展示了一些感受野的例子，采用核大小（kernel size）k=3*3，填充大小（padding size）p=1*1，步长（stride）s=2*2的卷积核C对5*5大小的输入图进行卷积操作，将输出3*3大小的特征图（绿色图）。对3*3大小的特征图进行相同的卷积操作，将输出2*2的特征图（橙色）。输出特征图在每个维度上的大小可以采用下面的公式进行计算（[1603.07285] A guide to convolution arithmetic for deep learning）：

为了简单，本文假设CNN的架构是对称的，而且输入图像长宽比为1，因此所有维度上的变量值都相同。若CNN架构或者输入图像不是对称的，你也可以分别计算每个维度上的特征图大小。如图1所示，左边一列展示了一种CNN特征图的常见可视化方式。这种可视化方式能够获取特征图的个数，但无法计算特征的位置（感受野的中心位置）和区域大小（感受野尺寸）。图1右边一列展示了一种固定大小的CNN特征图可视化方式，通过保持所有特征图大小和输入图大小相同来解决上述问题，接下来每个特征位于其感受野的中心。由于特征图中所有特征的感受野尺寸相同，我们就可以非常方便画出特征对应的包围盒（bounding box）来表示感受野的大小。因为特征图大小和输入图像相同，所以我们无需将包围盒映射到输入层。

图2 另外一种固定大小的CNN特征图表示。采用相同的卷积核C对7*7大小的输入图进行卷积操作，这里在特征中心周围画出了感受野的包围盒。为了表达更清楚，这里忽略了周围的填充像素。固定尺寸的CNN特征图可以采用3D（左图）或2D（右图）进行表示。

图2展示了另外一个例子，采用相同的卷积核C对7*7大小的输入图进行卷积操作。这里给出了3D（左图）和2D（右图）表示下的固定尺寸CNN特征图。注意：图2中感受野尺寸逐渐扩大，第二个特征层的中心特征感受野很快就会覆盖整个输入图。这一点对于CNN设计架构的性能提升非常重要。

感受野的计算（Receptive Field Arithmetic）

除了每个维度上特征图的个数，还需要计算每一层的感受野大小，因此我们需要了解每一层的额外信息，包括：当前感受野的尺寸r，相邻特征之间的距离（或者jump）j，左上角（起始）特征的中心坐标start，其中特征的中心坐标定义为其感受野的中心坐标（如上述固定大小CNN特征图所述）。假设卷积核大小k，填充大小p，步长大小s，则其输出层的相关属性计算如下：

公式一基于输入特征个数和卷积相关属性计算输出特征的个数
公式二计算输出特征图的jump，等于输入图的jump与输入特征个数（执行卷积操作时jump的个数，stride的大小）的乘积
公式三计算输出特征图的receptive field size，等于k个输入特征覆盖区域 $(k-1)*j_{in}$ 加上边界上输入特征的感受野覆盖的附加区域 $r_{in}$ 。
公式四计算第一个输出特征的感受野的中心位置，等于第一个输入特征的中心位置，加上第一个输入特征位置到第一个卷积核中心位置的距离 $(k-1)/2*j_{in}$ ，再减去填充区域大小 $p*j_{in}$ 。注意：这里都需要乘上输入特征图的jump，从而获取实际距离或间隔。

图3 对图1中的例子执行感受野计算。第一行给出一些符号和等式；第二行和最后一行说明给定输入层信息下输出层感受野的计算过程。

CNN的第一层是输入层，n = image size，r = 1，j = 1，start = 0.5。图3采用的坐标系中输入层的第一个特征中心位置在0.5。递归执行上述四个公式，就可以计算CNN中所有特征图中的感受野信息。图3给出这些公式计算的样例。

这里给出一个python小程序，用于计算给定CNN架构下所有层的感受野信息。程序允许输入任何特征图的名称和图中特征的索引号，输出相关感受野的尺寸和位置。图4给出AlexNet下的例子。

图4 AlexNet下感受野计算样例：

# [filter size, stride, padding]

#Assume the two dimensions are the same

#Each kernel requires the following parameters:

# - k_i: kernel size

# - s_i: stride

# - p_i: padding (if padding is uneven, right padding will higher than left padding; "SAME" option in tensorflow)

#

#Each layer i requires the following parameters to be fully represented:

# - n_i: number of feature (data layer has n_1 = imagesize )

# - j_i: distance (projected to image pixel distance) between center of two adjacent features

# - r_i: receptive field of a feature in layer i

# - start_i: position of the first feature's receptive field in layer i (idx start from 0, negative means the center fall into padding)

import math

convnet =   [[11,4,0],[3,2,0],[5,1,2],[3,2,0],[3,1,1],[3,1,1],[3,1,1],[3,2,0],[6,1,0], [1, 1, 0]]

layer_names = ['conv1','pool1','conv2','pool2','conv3','conv4','conv5','pool5','fc6-conv', 'fc7-conv']

imsize = 227

def outFromIn(conv, layerIn):

  n_in = layerIn[0]

  j_in = layerIn[1]

  r_in = layerIn[2]

  start_in = layerIn[3]

  k = conv[0]

  s = conv[1]

  p = conv[2]

  n_out = math.floor((n_in - k + 2*p)/s) + 1

  actualP = (n_out-1)*s - n_in + k

  pR = math.ceil(actualP/2)

  pL = math.floor(actualP/2)

  j_out = j_in * s

  r_out = r_in + (k - 1)*j_in

  start_out = start_in + ((k-1)/2 - pL)*j_in

  return n_out, j_out, r_out, start_out

def printLayer(layer, layer_name):

  print(layer_name + ":")

  print("\t n features: %s \n \t jump: %s \n \t receptive size: %s \t start: %s " % (layer[0], layer[1], layer[2], layer[3]))

layerInfos = []

if __name__ == '__main__':

#first layer is the data layer (image) with n_0 = image size; j_0 = 1; r_0 = 1; and start_0 = 0.5

  print ("-------Net summary------")

  currentLayer = [imsize, 1, 1, 0.5]

  printLayer(currentLayer, "input image")

  for i in range(len(convnet)):

    currentLayer = outFromIn(convnet[i], currentLayer)

    layerInfos.append(currentLayer)

    printLayer(currentLayer, layer_names[i])

  print ("------------------------")

  layer_name = raw_input ("Layer name where the feature in: ")

  layer_idx = layer_names.index(layer_name)

  idx_x = int(raw_input ("index of the feature in x dimension (from 0)"))

  idx_y = int(raw_input ("index of the feature in y dimension (from 0)"))

  n = layerInfos[layer_idx][0]

  j = layerInfos[layer_idx][1]

  r = layerInfos[layer_idx][2]

  start = layerInfos[layer_idx][3]

  assert(idx_x < n)

  assert(idx_y < n)

  print ("receptive field: (%s, %s)" % (r, r))

  print ("center: (%s, %s)" % (start+idx_x*j, start+idx_y*j))

三个33卷积核叠加作用（感受野）等于一个77卷积核，但是前者参数更少。

3个3*3：

1个7*7：

参考：

卷积神经网络中的感受野计算（译）

RECEPTIVE FIELD CALCULATOR 一个可以计算任意层感受野的网站

55卷积核替换为两个级联33卷积核在参数和计算量上的影响

卷积神经网络的卷积核大小、卷积层数、每层map个数都是如何确定下来的呢？

动图：github

转载 - CNN感受野(receptive-fields)RF的更多相关文章

CNN感受野计算
无痛理解CNN中的感受野receptive field CNN中感受野的计算从直观上讲,感受野就是视觉感受区域的大小.在卷积神经网络中,感受野的定义是决定某一层输出结果中一个元素所对应的输入层的区域 ...
对CNN感受野一些理解
对CNN感受野一些理解感受野(receptive field)被称作是CNN中最重要的概念之一.为什么要研究感受野呐?主要是因为在学习SSD,Faster RCNN框架时,其中prior box和A ...
关于感受野 (Receptive field) 你该知道的事
Receptive field 可中译为“感受野”,是卷积神经网络中非常重要的概念之一. 我个人最早看到这个词的描述是在 2012 年 Krizhevsky 的 paper 中就有提到过,当时是各种不 ...
神经网络中的感受野(Receptive Field)
在机器视觉领域的深度神经网络中有一个概念叫做感受野,用来表示网络内部的不同位置的神经元对原图像的感受范围的大小.神经元之所以无法对原始图像的所有信息进行感知,是因为在这些网络结构中普遍使用卷积层和po ...
(转载)CNN 模型所需的计算力（FLOPs）和参数（parameters）数量计算
FLOPS:注意全大写,是floating point operations per second的缩写,意指每秒浮点运算次数,理解为计算速度.是一个衡量硬件性能的指标. FLOPs:注意s小写,是f ...
CNN的发展
模型的建立过程: 1959年,Hubel & Wiesel发现动物视觉皮层中的细胞负责检测感受野(receptive fields)中的光线.论文:Receptive fields and f ...
【论文笔记】Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs 2018-01-17 21:41:57 [Introduction] 这篇 paper 是发表在 ...
理解CNN中的感受野（receptive-field）
1. 阅读论文:Understanding the Effective Receptive Field in Deep Convolutional Neural Networks 理解感受野定义:r ...
空洞卷积(dilated Convolution) 与感受野（Receptive Field）
一.空洞卷积空洞卷积是是为了解决基于FCN思想的语义分割中,输出图像的size要求和输入图像的size一致而需要upsample,但由于FCN中使用pooling操作来增大感受野同时降低分辨率,导致 ...

随机推荐

MT【44】抛物线不常见性质3
注:S为抛物线的焦点
HNOI2017礼物
礼物这估计是最水,最无脑的一道题了首先发现总和最接近时答案最小发现答案就是\((\sum_{i=1}^{n}a[i]^2+b[i]^2)-2*max(\sum_{i=1}^{n}a[i]*b[i ...
洛谷 P1582 倒水解题报告
P1582 倒水题目描述一天,CC买了N个容量可以认为是无限大的瓶子,开始时每个瓶子里有1升水.接着~~CC发现瓶子实在太多了,于是他决定保留不超过K个瓶子.每次他选择两个当前含水量相同的瓶子,把 ...
python开启httpserver服务在自动化测试中的一个小运用
httpserver可以在本机启动一个python实现的web服务器,在自动化测试中,可以将生成测试报告的目录开放给项目组同事. 先安装python 自动化测试框架,生成报告的目录D:\Automat ...
luogu2312 [NOIp2015]解方程 (秦九韶)
秦九韶算法:多项式$a_0+a_1x+a_2x^2+...+a_nx^n=a_0+x(a_1+x(a_2+...+(xa_n))..)$,这样对于一个x,可以在O(n)求出结果为了避免高精度,我们同 ...
牛客练习赛40 C 小A与欧拉路（树的直径）
链接:https://ac.nowcoder.com/acm/contest/369/C 题目描述小A给你了一棵树,对于这棵树上的每一条边,你都可以将它复制任意(可以为0)次(即在这条边连接的两个点 ...
常用数据结构及算法C#/Java实现
常用数据结构及算法C#实现 1.冒泡排序.选择排序.插入排序(三种简单非递归排序) ,, , , , , , , , , }; //冒泡排序 int length = waitSort.Length; ...
【codeforces contest 1119 F】Niyaz and Small Degrees
题目描述 $n$ 个点的树,每条边有一个边权: 对于一个 $X$ ,求删去一些边后使得每个点的度数 $d_i$ 均不超过 $X$ 的最小代价: 你需要依次输出 \(X=0 \to n ...
Spring中的ApplicationContextAware使用
加载Spring配置文件时,如果Spring配置文件中所定义的Bean类实现了ApplicationContextAware 接口,那么在加载Spring配置文件时,会自动调用Applic ...
A1037. Magic Coupon
The magic shop in Mars is offering some magic coupons. Each coupon has an integer N printed on it, m ...

转载 - CNN感受野(receptive-fields)RF