近年来很多研究将nlp中的attention机制融入到视觉的研究中,得到很不错的结果,于是,论文侧重于从理论和实验去验证self-attention可以代替卷积网络独立进行类似卷积的操作,给self-attention在图像领域的应用奠定基础

论文: On the Relationship between Self-Attention and Convolutional Layers

Introduction


  transformer的提出对NLP领域的研究有很大的促进作用,得益于attention机制,特别是self-attention,会考虑词间的相似性,对当前词进行加权输出。受到词间关系学习的启发,self-attention也开始用于视觉任务中,但大都是attention和convonlution的结合。Ramachandran在19年的研究中,用full attention model达到了resnet baseline的精度,模型参数和计算量相比卷积网络减轻了不少

  因此,论文主要研究self-attention layer在图片处理上是否能达到convolutional layer的效果,贡献如下:

  • 在理论层面,论文通过构造性证明self-attention layers能够替代任何卷积层
  • 在实际层面,论文通过构造multi-head self-attention layer进行实验,证明attention-only架构的前几层的确学习到了关注query pixel附近的g网格区域特征

Background on attention mechanisms for vision


The multi-head self-attention layer

  定义$X\in \mathbb{R}^{T\times D_{in}}$为输入矩阵,包含$T$个$D_{in}$维的token,在NLP中,token对应着序列化的词,同样地也可以对应序列化的像素

  self-attention layer从$D_{in}$到$D_{out}$的计算如公式1,2所示,$A$为attention scores,softmax将score转换为attention probabilities,该层的参数包含查询矩阵(query matrix)$W_{qry}\in \mathbb{R}^{D_{in}\times D_k}$,关键词矩阵(key matrix)$W_{key}\in \mathbb{R}^{D_{in}\times D_k}$,值矩阵(value matrix)$W_{val}\in \mathbb{R}^{D_{in}\times D_{out}}$,都用于对输入进行变化,基本跟NLP中的self-attention一致

  因为只考虑相关性,self-attention一个很重要的属性是,不管输入的顺序如何改变,输出都是不变的,这对于希望顺序对结果有影响的case影响很大,因此在self-attention基础上为每个token学习一个positional encoding参数,$P\in \mathbb{R}^{T\times D_{in}}$为包含位置信息的embedding向量,可以有多种形式

  这里采用multiple heads版本的self-attention,每个head的参数矩阵都不一样,能够提取不同的特征,$N_h$个head输出$D_h$维结果concat后映射成$D_{out}$维的最终输出,两个新参数,映射矩阵(projection matrix)$W_{out}\in \mathbb{R}^{N_hD_h\times D_{out}}$,偏置$b_{out}\in \mathbb{R}^{D_{out}}$

Attention for images

  卷积是最适合神经网络的图片操作方法,给予图片$X\in \mathbb{R}^{W\times H\times D_{in}}$,卷积在$(i,j)$的操作如公式5,$W\in \mathbb{R}^{K\times K\times D_{in}\times D_{out}}$,$b\in \mathbb{R}^{D_{out}}$,K为卷积核的大小

  在图片上应用self-attention,定义查询像素和关键词像素$q,k\in[W]\times [H]$,输入的向量大小为$X\in \mathbb{R}^{W\times H\times D_{in}}$为了保持一致性,用1D的符号来代表2D坐标,比如$p=(i,j)$,用$X_p$代表$X_{ij}$,用$A_p$代表$A_{ij}$

Positional encoding for images

  位置编码目前主要有两种,分别是绝对位置(absolute)编码和相对(relative)位置编码

  在绝对位置编码中,每个像素拥有一个位置向量$P_p$(学习的或固定的),于是公式2可以转换为公式7

  相对位置编码的核心是只考虑查询像素和查询像素之间的位置差异,如公式8,大体是将公式7的每一项的绝对位参数改为相对位置参数。attention scores只跟偏移$\delta:=k-q$,$u$和$v$是learnable参数,每个head都不一样,而每个偏移的相对位置编码$r_\delta\in \mathbb{R}^{D_p}$是head共享的。关键词权重分成了两部分,$W_{key}$属于输入,$\widehat {W}_{key}$属于偏移

  公式9称为二次编码(quadratic encoding),参数$\Delta{(h)}=(\Delta_1{(h)},\Delta_2{(h)})$和$\alpha{(h)}$分别代表中心点以及attention区域的大小,都是通过学习得来的,而$\delta=(\delta_1,\delta_2)$则是固定的,代表查询像素和关键词像素的相对位移

Self-attention as a convolutional layer


  定理1,对于multi-head self-attention,$N_h$个head,每个head输出$D_h$维,整体最终输出$D_{out}$,相对位置编码$D_p\ge 3$维,可以表示任何卷积,核大小为$\sqrt{N_h}\times \sqrt{N_h}$,output channel为$min(D_h,D_{out})$

  对于output channel不是固定$D_{out}$,论文认为当$D_h<D_{out}$时,$W_{out}$相当于一个升维操作,这个操作的特征提取不能代表原始卷积的属性,实际中,一般采用$D_h=D_{out},$这里是我的个人理解,可能有错误

  上面的定理表明,在选择适当的参数后,multi-head self-attention layer可以表现得跟卷积层一样,每个head的attention score关注不同偏移距离的像素,偏移值分别在集合$\Delta_K={-\lfloor K/2\rfloor,...,\lfloor K/2\rfloor}$内,这样整体就类似于$K\times K$核,如图1所示

  卷积神经网络不止卷积核大小这个超参,还有很多其它超参,这里论文对输出的数值的一致性上进行了解释:

  • Padding: multi-head self-attention layer默认使用"SAME"的填充模式,而卷积层会减小K-1个像素的图片大小,因此,为了减少边界影响,可以对卷积图片进行$\lfloor K/2\rfloor$的零填充
  • Stride: 卷积神经网络的步长可以认为是在卷积后面加入一个pooling操作,而Theorem 1默认步长为1,但可以在后面接个pooling达到相同的结果
  • Dilation: 因为multi-head self-attention可以设置任意的偏移值,因此也可以代表空洞卷积

Experiments


  实验的主要目的在于验证self-attention进行类似卷积的操作,以及self-attention在实际中是否学习到了类似卷积的属性,包含3种类似的attention,分别为quadratic embedding,learned embedding和learnded embedding + content,具体可以看作者开源代码的attention score计算部分。根据作者的解答,前两种都对应于代码的第一种注释,区别在前者按照公式9来计算$r_{\delta}$,后者则是完全随机学习来的,最后一种则对应注释的第三种

Implementation details

  搭建一个包含6层multi-head self-attention的神经网络,实验主要和标准ResNet18对比,固定的图片输入,最后使用average pooling将结果送给分类器

  结果如图2和Table1所示,ResNet收敛更快,但不能确定这是卷积固有的属性还是结构优化带来的结果,由于实验的结构还是很naive的,所以会存在差距,通过一些优化手段应该可以解决

Quadratic encoding

  论文进行实验验证公式9的相对位置编码$r_{\delta}$是否学习到了类似卷积的操作,实验使用9个head来模拟$3\times 3$卷积操作

  从图3可以看出, 网络第四层中各head的位置变化,在经过优化后,各head关注的pixel形式类似于grid的分布,可见的确学到了类似卷积核的操作

  图4则展示了不同层的head分布,可以看到层1和2更关注local区域,而层3-6更关注更大的区域

Learned relative positional encoding

  首先,论文去除了与输入数据相关的attention内容,仅考虑公式8的最后一项进行统计,结果如图5所示,层1-3非常接近查询区域,而深层数据则更关注整图的信息

  接着使用论文对positional attention和content-based attention进行了分析$(q^\intercal r+q^\intercal k)$,将100张图的attention probabilities进行了平均结果如图6所示。在层2和3中,尽管输入的数据不一样,但一些head学到了去关注查询像素附近的特定区域的像素这一行为,与卷积操作十分类似,而其它的head则使用了更多的content-based attention。在实际中,图6中的localized attention patterns是随着查询像素移动的,这与卷积操作更加类似,想请可以看 https://epfml.github.io/attention-cnn/

CONCLUSION


  论文展示了self-attention layers可以表示任意convolutional layer的行为,以及full-attentional模型能够学会如何结合local behavior和基于输入内容global attention。在未来,可以将卷积网络的优化方法迁移到full-attention模型上,应用于不同数据领域的模型,例如图像,文字和时间序列

感谢

  在论文阅读期间遇到了很多问题,给作者发了邮件后,很耐心地回答了我的问题,在这里十分感谢作者Jean-Baptiste Cordonnier

参考内容





写作不易,未经允许不得转载~

更多内容请关注 微信公众号【晓飞的算法工程笔记】

ICLR 2020 | 抛开卷积,multi-head self-attention能够表达任何卷积操作的更多相关文章

  1. 深度学习原理与框架-Tensorflow卷积神经网络-卷积神经网络mnist分类 1.tf.nn.conv2d(卷积操作) 2.tf.nn.max_pool(最大池化操作) 3.tf.nn.dropout(执行dropout操作) 4.tf.nn.softmax_cross_entropy_with_logits(交叉熵损失) 5.tf.truncated_normal(两个标准差内的正态分布)

    1. tf.nn.conv2d(x, w, strides=[1, 1, 1, 1], padding='SAME')  # 对数据进行卷积操作 参数说明:x表示输入数据,w表示卷积核, stride ...

  2. CNN中各类卷积总结:残差、shuffle、空洞卷积、变形卷积核、可分离卷积等

    CNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量.我下面会对近几年一些具有变革性的工作进行简单盘点,从这些充满革新性的工作中 ...

  3. 【MMT】ICLR 2020: MMT(Mutual Mean-Teaching)方法,无监督域适应在Person Re-ID上性能再创新高

    原文链接 小样本学习与智能前沿 . 在这个公众号后台回复"200708",即可获得课件电子资源. 为了减轻噪音伪标签的影响,文章提出了一种无监督的MMT(Mutual Mean-T ...

  4. 深度学习原理与框架-卷积神经网络基本原理 1.卷积层的前向传播 2.卷积参数共享 3. 卷积后的维度计算 4. max池化操作 5.卷积流程图 6.卷积层的反向传播 7.池化层的反向传播

    卷积神经网络的应用:卷积神经网络使用卷积提取图像的特征来进行图像的分类和识别       分类                        相似图像搜索                        ...

  5. [DeeplearningAI笔记]卷积神经网络1.9-1.11池化层/卷积神经网络示例/优点

    4.1卷积神经网络 觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.9池化层 优点 池化层可以缩减模型的大小,提高计算速度,同时提高所提取特征的鲁棒性. 池化层操作 池化操作与卷积操作类似 ...

  6. 卷积神经网络(CNN)与特殊的卷积

    各种卷积操作的可视化的显示形式:GitHub - vdumoulin/conv_arithmetic: A technical report on convolution arithmetic in ...

  7. SEPC:使用3D卷积从FPN中提取尺度不变特征,涨点神器 | CVPR 2020

    论文提出PConv为对特征金字塔进行3D卷积,配合特定的iBN进行正则化,能够有效地融合尺度间的内在关系,另外,论文提出SEPC,使用可变形卷积来适应实际特征间对应的不规律性,保持尺度均衡.PConv ...

  8. 卷积神经网络(CNN)在语音识别中的应用

    前言 总结目前语音识别的发展现状,dnn.rnn/lstm和cnn算是语音识别中几个比较主流的方向.2012年,微软邓力和俞栋老师将前馈神经网络FFDNN(Feed Forward Deep Neur ...

  9. ACNet:用于图像超分的非对称卷积网络

    编辑:Happy 首发:AIWalker Paper:https://arxiv.org/abs/2103.13634 Code:https://github.com/hellloxiaotian/A ...

随机推荐

  1. 5.7之sql_model

    问题发生背景 今天在部署项目的时候发现,测试后台接口,直接报 500,仔细一看原来是操作数据库的时候报错了,在本地测试的时候是没遇到类似的问题,数据库的版本是一样的,后面查找资料,说是 MySQL 5 ...

  2. Hibernate入门之主键生成策略详解

    前言 上一节我们讲解了Hibernate命名策略,从本节我们开始陆续讲解属性.关系等映射,本节我们来讲讲主键的生成策略. 主键生成策略 JPA规范支持4种不同的主键生成策略(AUTO.IDENTITY ...

  3. 使用python抓取汽车之家车型数据

    import requests import pymysql HOSTNAME = '127.0.0.1' USERNAME = 'root' PASSWORD = 'zyndev' DATABASE ...

  4. boostrap3 bootstrap-datetimepicker.min.js设置中文语言

    问题 bootstrap3中使用bootstrap-datetimepicker遇到设置中文语言的问题 解决办法 bootstrap-datetimepicker在使用的时候要先引入momentjs中 ...

  5. 零基础JavaScript编码(二)

    任务目的 在上一任务基础上继续JavaScript的体验 学习JavaScript中的if判断语法,for循环语法 学习JavaScript中的数组对象 学习如何读取.处理数据,并动态创建.修改DOM ...

  6. Simulink仿真入门到精通(十六) Simulink基于模型设计的工业应用概述

    16.1 Simulink用途概述 在基于模型设计广泛应用于汽车电子嵌入式开发的今天,MBD(Model Besed Design)技术也逐步推广到各种嵌入式控制方面.与传统的嵌入式开发相比,BMD以 ...

  7. 通过locust进行性能测试

    首先我们需要准备好python环境 接口 安装python 插件 locust,网上有很多文章而且都很错,这里不再赘述 我是通过pycharm 编写的代码  导入 HttpLocust,TaskSet ...

  8. ui自动化chrome文件上传操作

    web自动化,再chrome浏览器中文件上传操作

  9. 计算属性(computed)+侦听器(watch)+ 方法(methods)

    计算属性 computed 当数据改变时,方法的结果也会发生改变.如果多处地方调用计算属性里面的同一个方法时,该方法只会执行一次.如图,在控制台改变data里面的num值时,虽然在多处使用comput ...

  10. Python习题集(一)

    每天一习题,提升Python不是问题!!有更简洁的写法请评论告知我! 题目 有一个数据list of dict如下 a = [ {"}, {"}, {"}, ] 写入到本 ...