【CV论文阅读】生成式对抗网络GAN
生成式对抗网络GAN
1、 基本GAN
在论文《Generative Adversarial Nets》提出的GAN是最原始的框架,可以看成极大极小博弈的过程,因此称为“对抗网络”。一般包含两个部分:生成器(Generator)和判别器(Discriminator)。训练的过程是无监督学习。
先总结一下训练的过程。一般而言,输入是一个一维向量z,它从先验生成。假设现在Generator生成的是图像。我们知道,无监督学习目的是学习数据集中的特征(或者说分布),假设真实的分布为,而Generator的生成图像的过程其实隐式地定义了一个学习到的分布。把生成的图像输入到Discriminator中即,计算的是样本来自于真实分布而不是由生成的概率,因为Discriminator最终只有一个输出。上述无论是Generator或者Discriminator都是一般常见的网络,如下图:
如上所说,训练的过程是极大极小的博弈过程,归纳成下式:
即Generator希望极大化Discriminator误判的概率,而Discriminator极小化把生成样本判成来自真实data的概率。论文中证明,上式的最优解在于。
可以看到,学习到的样本分布(或者特征表示)并没有一个显式的结果,这算是GAN的一个缺点了。训练的过程是同时训练两个网络,由于Discriminator可以更好地指导Generator的调整,所以一般会让Discriminator循环的次数更多。最优化过程使用的是梯度下降算法,如下:
疑惑:在训练D的时候,按照公式应该是一个极大化的过程,为什么可以使用SGD呢?因此我觉得上式应该是不对的,之前应该缺少一个负号转换成一个极小化的问题。
而开始时,可能会很接近于0,这使得log函数也接近于0,最终结果是梯度下降时由于回流梯度过小无法更新浅层网络。因此,论文建议训练开始时可以求解极大化。
2、深度卷积生成对抗网络DCGAN
论文《UNSUPERVISED REPRESENTATION L EARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS》提出DCGAN,可以看成是GAN应用在CNN的尝试。论文更多的是在CNN工程上的尝试经验,由于GAN在训练时的不稳定性,因此提出了几点改变:
1、把所有的pooling层用strided convolution替代。在D网络即是跨步长的卷积,在G网络则是上采样(此处称为fractional-strided,但很多代码实现似乎都用了deconv,在tensorflow有这样一个函数)。
2、在G和D都应用BN,但是在G的输出层和D的输入层不应用BN。
3、移除全连接层
4、在G中的激活函数使用RELU,但在输出层使用的是Tanh
5、在D中的激活函数全部使用Leaky ReLu。
结构图如下:
这里主要看它的实现过程。代码来自https://github.com/carpedm20/DCGAN-tensorflow/blob/master/model.py 。
D网络部分和一般的卷积网络没有什么区别,主要最后一步是把feature map进行一个flatten的操作,然后全部feed到一个sigmoid的单元,即下式的h4。
h0 = lrelu(conv2d(image, self.df_dim, name='d_h0_conv'))
h1 = lrelu(self.d_bn1(conv2d(h0, self.df_dim*2, name='d_h1_conv')))
h2 = lrelu(self.d_bn2(conv2d(h1, self.df_dim*4, name='d_h2_conv')))
h3 = lrelu(self.d_bn3(conv2d(h2, self.df_dim*8, name='d_h3_conv')))
h4 = linear(tf.reshape(h3, [self.batch_size, -1]), 1, 'd_h3_lin')
return tf.nn.sigmoid(h4), h4
注意这里的conv2d实现时已经加上了bias。
在G网络部分,主要关注z到project and reshape部分和如何进行fractional-strided convolution。
对于project and reshape,代码中的实现是:
self.z_, self.h0_w, self.h0_b = linear(z, self.gf_dim*8*s16*s16, 'g_h0_lin', with_w=True)
self.h0 = tf.reshape(self.z_, [-1, s16, s16, self.gf_dim * 8])
其中linear()函数是通过matrix相乘把z变成self.gf_dim*8*s16*s16
大小的向量。然后通过
reshape
得到
feature maps
。
而对于
fractional-strided convolution,这里使用一个函数deconv2d(),代码如下:
w = tf.get_variable('w', [k_h, k_w, output_shape[-1], input_.get_shape()[-1]],initializer=tf.random_normal_initializer(stddev=stddev))
deconv = tf.nn.conv2d_transpose(input_, w, output_shape=output_shape, strides=[1, d_h, d_w, 1])
biases = tf.get_variable('biases', [output_shape[-1]], initializer=tf.constant_initializer(0.0))
deconv = tf.reshape(tf.nn.bias_add(deconv, biases), deconv.get_shape())
通过一个tf.nn.conv2d_transpose()函数实现反卷积。但有一点注意的是,tf.nn.conv2d_transpose()函数不是什么shape都可以输出的,验证是否正确的方法是,把output与卷积核w做一次卷积,如果得到的shape和input的一致,代表是正确的。
可以参考http://stackoverflow.com/questions/35488717/confused-about-conv2d-transpose 。
3、条件GAN conditional GAN
条件GAN,我认为很多blog是写错了的,它和条件概率应该是没有关系的。GAN的一个很大的优点是,它的输入很灵活没有过大的限制。而条件GAN其实是在一般输入时添加了额外的input,这作为一个可控制的变量去指导着网络的训练。因为基本GAN的训练应该是无方向(这里表达不准确)的。
一个简单的网络如下:
Y作为额外的输入的变量,是可控的。在论文《Conditional Generative Adversarial Nets》中的一个例子是训练mnist,其中y则是0~9的标签的一个one-hot的编码向量。
此外,由于GAN输入的灵活,可以很容易想到可以加入多模态的信息对网络训练进行指导,事实上已经有了不少的尝试。
【CV论文阅读】生成式对抗网络GAN的更多相关文章
- 生成式对抗网络GAN 的研究进展与展望
生成式对抗网络GAN的研究进展与展望.pdf 摘要: 生成式对抗网络GAN (Generative adversarial networks) 目前已经成为人工智能学界一个热门的研究方向. GAN的基 ...
- 【神经网络与深度学习】生成式对抗网络GAN研究进展(五)——Deep Convolutional Generative Adversarial Nerworks,DCGAN
[前言] 本文首先介绍生成式模型,然后着重梳理生成式模型(Generative Models)中生成对抗网络(Generative Adversarial Network)的研究与发展.作者 ...
- 生成式对抗网络(GAN)实战——书法字体生成练习赛
https://www.tinymind.cn/competitions/ai 生成式对抗网络(GAN)是近年来大热的深度学习模型. 目前GAN最常使用的场景就是图像生成,作为一种优秀的生成式模型,G ...
- Keras入门——(3)生成式对抗网络GAN
导入 matplotlib 模块: import matplotlib 查看自己版本所支持的backends: print(matplotlib.rcsetup.all_backends) 返回信息: ...
- 不要怂,就是GAN (生成式对抗网络) (一)
前面我们用 TensorFlow 写了简单的 cifar10 分类的代码,得到还不错的结果,下面我们来研究一下生成式对抗网络 GAN,并且用 TensorFlow 代码实现. 自从 Ian Goodf ...
- 不要怂,就是GAN (生成式对抗网络) (一): GAN 简介
前面我们用 TensorFlow 写了简单的 cifar10 分类的代码,得到还不错的结果,下面我们来研究一下生成式对抗网络 GAN,并且用 TensorFlow 代码实现. 自从 Ian Goodf ...
- GAN生成式对抗网络(四)——SRGAN超高分辨率图片重构
论文pdf 地址:https://arxiv.org/pdf/1609.04802v1.pdf 我的实际效果 清晰度距离我的期待有距离. 颜色上面存在差距. 解决想法 增加一个颜色判别器.将颜色值反馈 ...
- 生成式对抗网络(GAN)学习笔记
图像识别和自然语言处理是目前应用极为广泛的AI技术,这些技术不管是速度还是准确度都已经达到了相当的高度,具体应用例如智能手机的人脸解锁.内置的语音助手.这些技术的实现和发展都离不开神经网络,可是传统的 ...
- AI 生成式对抗网络(GAN)
生成式对抗网络(Generative Adversarial Network,简称GAN),主要由两部分构成:生成模型G和判别模型D.训练GAN就是两种模型的对抗过程. 生成模型:利用任意噪音(ran ...
随机推荐
- iOS游戏开发之UIDynamic
iOS游戏开发之UIDynamic 简介 什么是UIDynamic UIDynamic是从iOS 7开始引入的一种新技术,隶属于UIKit框架 可以认为是一种物理引擎,能模拟和仿真现实生活中的物理现象 ...
- 如何用 CSS 绘制各种形状
自适应的椭圆 1.自适应的椭圆 实现方式是通过border-radius这个属性:border-radius它可以单独指定水平和垂直半径.用 / 分隔这两个值.并且该属性的值不仅可以接受长度值,还能接 ...
- Windows之shortcut
System key combinations CTRL+ESC: Open Start menu ALT+TAB: Switch between open programs ALT+F4: Quit ...
- boostrapvalidator
一个例子 <%@ page contentType="text/html;charset=UTF-8" language="java" %> < ...
- chpasswd - 成批更新用户的口令
总览 chpasswd [-e] 描述 chpasswd 从系统的标准输入读入用户的名称和口令,并利用这些信息来更新系统上已存在的用户的口令.在没有用 -e 这个开关选项的情况下,口令将按明文的形式接 ...
- 笔试算法题(25):复制拥有多个指针的链表 & 判断二元树B是否为A的子树
出题:定义一个复杂链表:在单向链表的基础上,每个节点附加一个指向链表中其他任意节点的指针sibling,实现CNode* Clone(Cnode *head)函数复制这个复杂链表: 分析: 解法1:将 ...
- php 日常问题
1.isset.empty.is_null的区别 isset 判断变量是否定义或者是否为空 变量存在返回ture,否则返回false 变量定义不赋值返回false unset一个变量,返回false ...
- 零基础入门学习Python(32)--异常处理:你不可能总是对的
知识点 即便Python程序的语法是正确的,在运行它的时候,也有可能发生错误.运行期检测到的错误被称为异常. 大多数的异常都不会被程序处理,都以错误信息的形式展现在这里: Python标准异常总结 序 ...
- 把wav文件等时长切割
ffmpeg -i somefile.mp3 -f segment -segment_time 1800 -c copy out%03d.mp3 segment_time 是切割时长,单位秒
- leds-gpio driver 续1
在上文中分析了gpio-led platform_device是如何定义并注册的. 那么gpio-led platform_device 和 gpio-led platform_driver是如何匹配 ...