近年来很多研究将nlp中的attention机制融入到视觉的研究中，得到很不错的结果，于是，论文侧重于从理论和实验去验证self-attention可以代替卷积网络独立进行类似卷积的操作，给self-attention在图像领域的应用奠定基础

论文: On the Relationship between Self-Attention and Convolutional Layers

Introduction

transformer的提出对NLP领域的研究有很大的促进作用，得益于attention机制，特别是self-attention，会考虑词间的相似性，对当前词进行加权输出。受到词间关系学习的启发，self-attention也开始用于视觉任务中，但大都是attention和convonlution的结合。Ramachandran在19年的研究中，用full attention model达到了resnet baseline的精度，模型参数和计算量相比卷积网络减轻了不少

因此，论文主要研究self-attention layer在图片处理上是否能达到convolutional layer的效果，贡献如下：

在理论层面，论文通过构造性证明self-attention layers能够替代任何卷积层
在实际层面，论文通过构造multi-head self-attention layer进行实验，证明attention-only架构的前几层的确学习到了关注query pixel附近的g网格区域特征

Background on attention mechanisms for vision

The multi-head self-attention layer

定义$X\in \mathbb{R}^{T\times D_{in}}$为输入矩阵，包含$T$个$D_{in}$维的token，在NLP中，token对应着序列化的词，同样地也可以对应序列化的像素

self-attention layer从$D_{in}$到$D_{out}$的计算如公式1,2所示，$A$为attention scores，softmax将score转换为attention probabilities，该层的参数包含查询矩阵(query matrix)$W_{qry}\in \mathbb{R}^{D_{in}\times D_k}$，关键词矩阵(key matrix)$W_{key}\in \mathbb{R}^{D_{in}\times D_k}$，值矩阵(value matrix)$W_{val}\in \mathbb{R}^{D_{in}\times D_{out}}$，都用于对输入进行变化，基本跟NLP中的self-attention一致

因为只考虑相关性，self-attention一个很重要的属性是，不管输入的顺序如何改变，输出都是不变的，这对于希望顺序对结果有影响的case影响很大，因此在self-attention基础上为每个token学习一个positional encoding参数，$P\in \mathbb{R}^{T\times D_{in}}$为包含位置信息的embedding向量，可以有多种形式

这里采用multiple heads版本的self-attention，每个head的参数矩阵都不一样，能够提取不同的特征，$N_h$个head输出$D_h$维结果concat后映射成$D_{out}$维的最终输出，两个新参数，映射矩阵(projection matrix)$W_{out}\in \mathbb{R}^{N_hD_h\times D_{out}}$，偏置$b_{out}\in \mathbb{R}^{D_{out}}$

Attention for images

卷积是最适合神经网络的图片操作方法，给予图片$X\in \mathbb{R}^{W\times H\times D_{in}}$，卷积在$(i,j)$的操作如公式5，$W\in \mathbb{R}^{K\times K\times D_{in}\times D_{out}}$，$b\in \mathbb{R}^{D_{out}}$，K为卷积核的大小

在图片上应用self-attention，定义查询像素和关键词像素$q,k\in[W]\times [H]$，输入的向量大小为$X\in \mathbb{R}^{W\times H\times D_{in}}$为了保持一致性，用1D的符号来代表2D坐标，比如$p=(i,j)$，用$X_p$代表$X_{ij}$，用$A_p$代表$A_{ij}$

Positional encoding for images

位置编码目前主要有两种，分别是绝对位置(absolute)编码和相对(relative)位置编码

在绝对位置编码中，每个像素拥有一个位置向量$P_p$(学习的或固定的)，于是公式2可以转换为公式7

相对位置编码的核心是只考虑查询像素和查询像素之间的位置差异，如公式8，大体是将公式7的每一项的绝对位参数改为相对位置参数。attention scores只跟偏移$\delta:=k-q$，$u$和$v$是learnable参数，每个head都不一样，而每个偏移的相对位置编码$r_\delta\in \mathbb{R}^{D_p}$是head共享的。关键词权重分成了两部分，$W_{key}$属于输入，$\widehat {W}_{key}$属于偏移

公式9称为二次编码(quadratic encoding)，参数$\Delta^{{(h)}=(\Delta_1}{(h)},\Delta_2^{{(h)})$和$\alpha}{(h)}$分别代表中心点以及attention区域的大小，都是通过学习得来的，而$\delta=(\delta_1,\delta_2)$则是固定的，代表查询像素和关键词像素的相对位移

Self-attention as a convolutional layer

定理1，对于multi-head self-attention，$N_h$个head，每个head输出$D_h$维，整体最终输出$D_{out}$，相对位置编码$D_p\ge 3$维，可以表示任何卷积，核大小为$\sqrt{N_h}\times \sqrt{N_h}$，output channel为$min(D_h,D_{out})$

对于output channel不是固定$D_{out}$，论文认为当$D_h<D_{out}$时，$W_{out}$相当于一个升维操作，这个操作的特征提取不能代表原始卷积的属性，实际中，一般采用$D_h=D_{out}，$这里是我的个人理解，可能有错误

上面的定理表明，在选择适当的参数后，multi-head self-attention layer可以表现得跟卷积层一样，每个head的attention score关注不同偏移距离的像素，偏移值分别在集合$\Delta_K={-\lfloor K/2\rfloor,...,\lfloor K/2\rfloor}$内，这样整体就类似于$K\times K$核，如图1所示

卷积神经网络不止卷积核大小这个超参，还有很多其它超参，这里论文对输出的数值的一致性上进行了解释：

Padding: multi-head self-attention layer默认使用"SAME"的填充模式，而卷积层会减小K-1个像素的图片大小，因此，为了减少边界影响，可以对卷积图片进行$\lfloor K/2\rfloor$的零填充
Stride: 卷积神经网络的步长可以认为是在卷积后面加入一个pooling操作，而Theorem 1默认步长为1，但可以在后面接个pooling达到相同的结果
Dilation: 因为multi-head self-attention可以设置任意的偏移值，因此也可以代表空洞卷积

Experiments

实验的主要目的在于验证self-attention进行类似卷积的操作，以及self-attention在实际中是否学习到了类似卷积的属性，包含3种类似的attention，分别为quadratic embedding，learned embedding和learnded embedding + content，具体可以看作者开源代码的attention score计算部分。根据作者的解答，前两种都对应于代码的第一种注释，区别在前者按照公式9来计算$r_{\delta}$，后者则是完全随机学习来的，最后一种则对应注释的第三种

Implementation details

搭建一个包含6层multi-head self-attention的神经网络，实验主要和标准ResNet18对比，固定的图片输入，最后使用average pooling将结果送给分类器

结果如图2和Table1所示，ResNet收敛更快，但不能确定这是卷积固有的属性还是结构优化带来的结果，由于实验的结构还是很naive的，所以会存在差距，通过一些优化手段应该可以解决

Quadratic encoding

论文进行实验验证公式9的相对位置编码$r_{\delta}$是否学习到了类似卷积的操作，实验使用9个head来模拟$3\times 3$卷积操作

从图3可以看出，网络第四层中各head的位置变化，在经过优化后，各head关注的pixel形式类似于grid的分布，可见的确学到了类似卷积核的操作

图4则展示了不同层的head分布，可以看到层1和2更关注local区域，而层3-6更关注更大的区域

Learned relative positional encoding

首先，论文去除了与输入数据相关的attention内容，仅考虑公式8的最后一项进行统计，结果如图5所示，层1-3非常接近查询区域，而深层数据则更关注整图的信息

接着使用论文对positional attention和content-based attention进行了分析$(q^\intercal r+q^\intercal k)$，将100张图的attention probabilities进行了平均结果如图6所示。在层2和3中，尽管输入的数据不一样，但一些head学到了去关注查询像素附近的特定区域的像素这一行为，与卷积操作十分类似，而其它的head则使用了更多的content-based attention。在实际中，图6中的localized attention patterns是随着查询像素移动的，这与卷积操作更加类似，想请可以看 https://epfml.github.io/attention-cnn/

CONCLUSION

论文展示了self-attention layers可以表示任意convolutional layer的行为，以及full-attentional模型能够学会如何结合local behavior和基于输入内容global attention。在未来，可以将卷积网络的优化方法迁移到full-attention模型上，应用于不同数据领域的模型，例如图像，文字和时间序列

感谢

在论文阅读期间遇到了很多问题，给作者发了邮件后，很耐心地回答了我的问题，在这里十分感谢作者Jean-Baptiste Cordonnier

参考内容

Stand-Alone Self-Attention in Vision Models - Ramachandran

写作不易，未经允许不得转载～

更多内容请关注微信公众号【晓飞的算法工程笔记】

ICLR 2020 | 抛开卷积，multi-head self-attention能够表达任何卷积操作的更多相关文章

深度学习原理与框架-Tensorflow卷积神经网络-卷积神经网络mnist分类 1.tf.nn.conv2d(卷积操作) 2.tf.nn.max_pool(最大池化操作) 3.tf.nn.dropout(执行dropout操作) 4.tf.nn.softmax_cross_entropy_with_logits(交叉熵损失) 5.tf.truncated_normal(两个标准差内的正态分布)
1. tf.nn.conv2d(x, w, strides=[1, 1, 1, 1], padding='SAME') # 对数据进行卷积操作参数说明:x表示输入数据,w表示卷积核, stride ...
CNN中各类卷积总结：残差、shuffle、空洞卷积、变形卷积核、可分离卷积等
CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量.我下面会对近几年一些具有变革性的工作进行简单盘点,从这些充满革新性的工作中 ...
【MMT】ICLR 2020: MMT(Mutual Mean-Teaching)方法，无监督域适应在Person Re-ID上性能再创新高
原文链接小样本学习与智能前沿 . 在这个公众号后台回复"200708",即可获得课件电子资源. 为了减轻噪音伪标签的影响,文章提出了一种无监督的MMT(Mutual Mean-T ...
深度学习原理与框架-卷积神经网络基本原理 1.卷积层的前向传播 2.卷积参数共享 3. 卷积后的维度计算 4. max池化操作 5.卷积流程图 6.卷积层的反向传播 7.池化层的反向传播
卷积神经网络的应用:卷积神经网络使用卷积提取图像的特征来进行图像的分类和识别分类相似图像搜索 ...
[DeeplearningAI笔记]卷积神经网络1.9-1.11池化层/卷积神经网络示例/优点
4.1卷积神经网络觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.9池化层优点池化层可以缩减模型的大小,提高计算速度,同时提高所提取特征的鲁棒性. 池化层操作池化操作与卷积操作类似 ...
卷积神经网络（CNN）与特殊的卷积
各种卷积操作的可视化的显示形式:GitHub - vdumoulin/conv_arithmetic: A technical report on convolution arithmetic in ...
SEPC：使用3D卷积从FPN中提取尺度不变特征，涨点神器 | CVPR 2020
论文提出PConv为对特征金字塔进行3D卷积,配合特定的iBN进行正则化,能够有效地融合尺度间的内在关系,另外,论文提出SEPC,使用可变形卷积来适应实际特征间对应的不规律性,保持尺度均衡.PConv ...
卷积神经网络（CNN）在语音识别中的应用
前言总结目前语音识别的发展现状,dnn.rnn/lstm和cnn算是语音识别中几个比较主流的方向.2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(Feed Forward Deep Neur ...
ACNet：用于图像超分的非对称卷积网络
编辑:Happy 首发:AIWalker Paper:https://arxiv.org/abs/2103.13634 Code:https://github.com/hellloxiaotian/A ...

随机推荐

如何安装与配置MySQL
关键词:MySQL,安装,配置这一节,我们讨论一下MySQL的安装配置与卸载下载网址:https://dev.mysql.com/downloads/mysql/ 选择社区版,找到对应的电脑,开 ...
为什么我们要让人工智能玩游戏：微软Project AIX
<我的世界>游戏 2016年7月注:Project AIX已正式更名为Project Malmo 注:本文编译自Project AIX: Using Minecraft to build ...
insert时出现主键冲突的处理方法
使用"insert into"语句进行数据库操作时可能遇到主键冲突,用户需要根据应用场景进行忽略或者覆盖等操作.总结下,有三种解决方案来避免出错. 测试表:CREATE TABLE ...
linux下查找文件及查找包含指定内容的文件常用命令
whereis <程序名称> 查找软件的安装路径-b 只查找二进制文件-m 只查找帮助文件-s 只查找源代码-u 排除指定类型文件-f 只显示文件名-B <目录> 在指定目录下 ...
Microsoft Translator发布粤语文本翻译
今天,Microsoft Translator发布了粤语的文本翻译,新的语言增加将继续丰富微软翻译产品的生态系统*,让更多组织和个人能够快速且高效地实现翻译应用.在中国,大有约5500万人使用粤语(语 ...
AndroidStudio实现AIDL
AIDL的使用步骤 aidl远程调用传递的参数和返回值支持Java的基本类型(int long booen char byte等)和String,List,Map等.当然也支持一个自定义对象的传递. ...
iPhone7产业链不为人知的辛酸
苹果金秋新品发布会是科技界的"春晚",年复一年地重复,难免会让人产生审美疲劳,但每逢中国教师节前后,全球的科技人士和媒体还是会不约而同地走到一起,等待苹果团队为之奉献出好的产品和 ...
牛奶别乱喝6种最好最差牛奶PK
牛奶被认为是最健康的一种食材,而且牛奶柔滑的口感和味道让地球上的每一个人都爱不释口.随着现代工业的发展,牛奶也被加工成各种各样的制品,即便是牛奶本身也有着无数的选择,那么究竟什么样的牛奶好.什么样 ...
CountDownLatch源码探究 (JDK 1.8)
CountDownLatch能够实现让线程等待某个计数器倒数到零的功能,之前对它的了解也仅仅是简单的使用,对于其内部如何实现线程等待却不是很了解,最好的办法就是通过看源码来了解底层的实现细节.Coun ...
图解MySQL索引(上)—MySQL有中“8种”索引？
关于MySQL索引相关的内容,一直是一个让人头疼的问题,尤其是对于初学者来说.笔者曾在很长一段时间内深陷其中,无法分清"覆盖索引,辅助索引,唯一索引,Hash索引,B-Tree索引--&qu ...

ICLR 2020 | 抛开卷积，multi-head self-attention能够表达任何卷积操作