Note

这是一篇将Self-Attention应用到GAN中的paper，Self-Attention模块是卷积模块的补充，能够有助于建模跨图像区域的长范围、多层次依赖关系。文中主要提到4点：

在生成的过程中，可以使用所有的特征来生成高分辨率的细节，每个位置的精细细节都与图像远处部分的精细细节仔细协调；

在判别的过程中，判别器可以检查图像中较远部分的高度详细的特征是否彼此一致，还可以更准确地在全局图像结构上执行复杂的几何约束；

将谱归一化(Spectral Normalization)应用于GAN生成器和判别器，能够改善训练动态；

在对生成器和判别器进行更新时，使用不一致的学习率。

Paper Details

1. Self-Attention Generative Adversarial Networks

在图像生成任务中，大多数基于GAN的模型使用卷积层对网络进行构建，卷积处理局部邻域中的信息，但是单独使用卷积层对图像中的长期依赖性建模在计算上是低效的。在paper中，采用非局部模型，将自注意力机制引入GAN框架，使生成器和判别器能够有效地建模广泛分离的空间区域之间的关系。网络框架如下图：

具体实现如下：

Self-Attention层的输入为前一层的输出 x∈(C为通道数，N为上一隐藏层特征数)，经过1 x 1的卷积后，形成 f(x) 和 g(x) 两个特征空间 ( f(x) = ，g(x) = )，用来计算注意力(表示在合成第j个区域时，模型关注第i个位置的程度)，计算方式如下：
Self-Attention层的输出为∈，其中，

对于以上的计算公式，四个W都是网络训练过程中学习到的权重，具体实现为上边提到的1 x 1卷积。
最后，将Self-Attention层的输出乘以一个比例参数，再添加回输入的特征图，形成最后的输出 (γ是一个可学习的标量，它初始化为0) ：

Note：引入可学习γ允许网络首先依赖于局部邻域的线索，因为这更容易，然后逐渐学会给非局部证据分配更多的权重。即：先学习简单的任务，然后逐步增加任务的复杂性。

2. Techniques to Stabilize the Training of GANs

Paper还研究了两种技术来稳定GANs在具有挑战性的数据集上的训练。

生成器和判别器中使用谱归一化 (Spectral Normalization) ；
确认两时间尺度更新规则(TTUR)是有效的，主张专门使用它来解决正则化鉴别器中的缓慢学习。

2.1 Spectral normalization for both generator and discriminator

Paper认为生成器也可以受益于谱归一化，使用在判别器上的谱归一化亦可使用在生成器，如下：

谱归一化在生成器中可以防止参数幅度的上升和避免异常梯度；
生成器和判别器的谱归一化使得每次生成器的更新使用更少的判别器更新，从而显著降低了训练的计算成本；
该方法还显示出更稳定的训练行为。

2.2 Imbalanced learning rate for generator and discriminator updates

在实践中，使用正则化鉴别器的方法在训练过程中，每个生成器更新步骤通常需要多个(例如5个)判别器更新步骤，会减慢GANs的学习过程。Paper中建议专门使用TTUR来弥补正则化判别器中学习缓慢的问题，使得每个生成器步骤使用更少的判别器步骤。使用这种方法，能够在相同的时间下产生更好的结果。

两种改进的效果如下图：

3. Experiments Details

训练的所有SAGAN模型都是用来生成128×128图像的。默认情况下：

谱归一化用于生成器和鉴别器中的层；
SAGAN在生成器中使用有条件批处理归一化，在判别器中进行判别推测；
对于所有模型，我们使用β1 = 0和β2 = 0.9的Adam优化器进行训练；
缺省情况下，判别器的学习率为0.0004，生成器的学习率为0.0001；
在较深的层次中使用Self-Attention效果比在较浅的层中使用效果好。如图：

4. Visualization of attention maps

如上的图像是由SAGAN生成的，Paper中将使用Attention的最后一个生成器层的注意力映射可视化，因为这一层最接近输出像素，最直接地投射到像素空间中。

在每个单元格中，第一张图像用彩色点显示了三个具有代表性的查询位置。其他三张图片是这些查询位置的注意力图，对应的彩色箭头总结了最受关注的区域。可以观察到，网络学会根据颜色和纹理的相似性来分配注意力，而不仅仅是空间邻接 (见左上角的单元格) 。

我们还发现，虽然一些查询点在空间位置上非常接近，但它们的注意力图可能有很大的不同，如左下角单元格所示。如右上单元格所示，SAGAN能够画出腿明显分开的狗。蓝色查询点表示注意有助于正确获得关节区域的结构。

5. Comparison with the state-of-the-art

SAGAN与最先进的GAN模型的比较如下图所示。（Inception Score越高，图像质量越好; FID表示真实图像与生成图像之间的距离，FID越低，越准确）

另外，SAGAN在合成具有复杂几何或结构模式（如金鱼和圣伯纳）的图像类时，比最先进的GAN模型获得了更好的性能（即更低的内部FID）。对于结构约束较少的类（例如，山谷、石墙和珊瑚真菌，它们更多地是通过纹理而不是几何来区分），我们的SAGAN与基线模型相比表现出较少的优势。原因是SAGAN中的自注意力是对捕获在几何或结构模式中一致出现的远距离全局级依赖的卷积的补充，但在为简单纹理建模依赖时，它与局部卷积起着类似的作用。实验结果如下图所示：

【Basic Knowledge】Self-Attention Generative Adversarial Networks的更多相关文章

【文献阅读】Perceptual Generative Adversarial Networks for Small Object Detection –CVPR-2017
Perceptual Generative Adversarial Networks for Small Object Detection 2017CVPR 新鲜出炉的paper,这是针对small ...
论文笔记之：Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
生成对抗网络（Generative Adversarial Networks，GAN）初探
1. 从纳什均衡(Nash equilibrium)说起我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
论文解读（GAN）《Generative Adversarial Networks》
Paper Information Title:<Generative Adversarial Networks>Authors:Ian J. Goodfellow, Jean Pouge ...
《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型仔细理解了在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
（转）Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
SAGAN:Self-Attention Generative Adversarial Networks - 1 - 论文学习
Abstract 在这篇论文中,我们提出了自注意生成对抗网络(SAGAN),它是用于图像生成任务的允许注意力驱动的.长距离依赖的建模.传统的卷积GANs只根据低分辨率图上的空间局部点生成高分辨率细节. ...
GD-GAN: Generative Adversarial Networks for Trajectory Prediction and Group Detection in Crowds
GD-GAN: Generative Adversarial Networks for Trajectory Prediction and Group Detection in Crowds 2019 ...
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记
AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记这 ...
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...

随机推荐

6.YAML文件详解、PyYaml操作
YAML简介: yaml是一种数据格式,支持注释,换行,多行字符串,裸字符串(正序,字符串) YAML作用: 用于全局的配置文件用于测试用例编写 YAML语法规则: 区分大小写使用缩进 ...
京东云开发者｜京东云RDS数据迁移常见场景攻略
云时代已经来临,云上很多场景下都需要数据的迁移.备份和流转,各大云厂商也大都提供了自己的迁移工具.本文主要介绍京东云数据库为解决用户数据迁移的常见场景所提供的解决方案. 场景一:数据迁移上云数据迁移 ...
笔记：Debian下为sublime text建立软链接[像vi一样到处使用]
先查询sublime-text安装路径 :~$ dpkg -L sublime-text /. /opt /opt/sublime_text ... /opt/sublime_text/sublime ...
LVS综合实验
LVS综合实验 1.环境准备提前准备:Mysql8.0.30安装包.Mysql安装脚本.shopxo2.3.0安装包.DNS脚本服务器 IP地址作用系统版本 Mysql-master 10.0 ...
洛谷 P6573 [BalticOI 2017] Toll 题解
Link 算是回归OI后第一道自己写的题(考CSP的时候可没回归) 写篇题解纪念一下题目大意: $n$ 个点,$m$ 条单向边,每条边的两端点 $x$,$y$必定满足 \(\left ...
记录因Sharding Jdbc批量操作引发的一次fullGC
周五晚上告警群突然收到了一条告警消息,点开一看,应用 fullGC 了. 于是赶紧联系运维下载堆内存快照,进行分析. 内存分析使用 MemoryAnalyzer 打开堆文件 mat 下载地址:htt ...
Datatable 数据源
数据源类型 Datatable可以使用三种基本的JavaScript数据类型作为数据源数组(Arrays[]) 对象(objects{}) 实例(new myclass()) 目前使用过的为前两种, ...
Jenkins用户管理
用户注册和权限管理介绍. 1. 用户注册进入[系统管理]-[全局安全配置],进行配置: 1.1 安全域选择[Jenkins专有用户数据库],勾选[允许用户注册],随后[保存] 1.2 用户注册在 ...
RocketMQ 在物流行业的应用与运维
本文作者:丁威 - 中通快递资深架构师,<RocketMQ技术内幕>作者,Apache RocketMQ社区首席布道师,公众号「中间件兴趣圈」维护者. 01 物流行业的业务特点物流行业有 ...
查看服务器出口ip
[root@iZap201hv2fcgry1alvbznZ ~]# curl cip.cc IP : xxx.xxx.xx.xx 地址 : 中国浙江绍兴运营商 : 移动数据二 : 浙江省绍兴市 ...

【Basic Knowledge】Self-Attention Generative Adversarial Networks