Smiling & Weeping

　　　　　　　　　　　　　　　　---- 你已春风摇曳，我仍一身旧雪

1.GAN的基本思想

GAN全称对抗生成网络，顾名思义是生成模型的一种，而他的训练则是一种对抗博弈状态中的。下面我们举例来解释一下GAN的基本思想。

　　假如你是一名篮球运动员，你想在下次比赛中得到上场的机会。

　　于是在每一次训练赛之后你跟教练沟通：

　　你：教练，我想打篮球

　　教练：（看了看你平时篮球成绩后）...不，你不想

　　（但你并没有绝望，通过跟其他人对比，返现自己运球比较差，于是你苦练了一段时间）

　　你：教练，我想

　　教练：（没等话说完）...你，你，你想上天

　　(但你仍没有绝望，你发现大家投篮很准，于是你苦练了一段时间的投篮)

　　你：教练，我想打 lan qiu

　　教练：（教练看了看你，叹了口气）恩，想法不错，继续想别停

　　（但你仍没有绝望，你发现自己身体不够强壮，被人一碰就倒，于是你去跑健身房）

　　...

　　通过这样不断的努力和被拒绝，你终于在某一次训练赛之后得到教练的‘赞赏’，获得了　　　　“上场”的机会

　　值得一提的是在这个过程中，所有的候选球员都在不断地进步和提升。因而教练也要　　不断地通过对比场上球员和候补球员来学习分辨哪些球员是真正可以上场的，并且要“观察”得比球员更频繁。随着大家的成长教练也会会变得越来越严格。

　　现在，大家对于GAN的思想应该有了感性的认识了，下一步进一步窥探GAN的结构和思想

2.GAN浅析

2.1 GAN的基本结构

GAN的主要结构包括一个生成器G（Generator）和一个判别器D（Discriminator）

在上面的例子中的球员相当于生成器，我们需要他在球场上能有好的表现。二球员一开始都是初学者，这个时候就需要一个教练来指导他们训练，告诉他们训练的怎么样，直到真的能够达到上场的标准。而这个教练就相当于判别器。

我们现在拥有大量的手写数字的数据集，我们希望通过GAN生成一些能够以假乱真的手写数字。主要由如下两个部分组成：

1.定义一个模型来作为生成器（图中青色部分Generator），能够输入一个向量，输出手写数字大小的像素图像。

2.定义一个分类器来作为判别器（图中红色部分Discriminator）用来判断图片是真的还是假的（或者说是来自数据集中的还是声称其中的），输入为手写图片，输出为判别图片的标签。

2.2 GAN的训练方式

前面已经定义了一个生成器（Generator）来生成手写数字，一个判别器（Discriminator）来判别手写数字是否是真实的，和一些真实的手写数字数据集。那么我们怎么样来进行训练呢？

2.2.1 关于生成器

对于生成器，输入需要一个n维度向量，输出为图片像素大小的图片。因而首先我们需要得到输入的向量。

Tips: 这里的生成器可以是任意可以输出图片的模型，比如最简单的全连接神经网络，又或者是反卷积网络等。这里大家明白就好。

这里输入的向量我们将其视为携带输出的某些信息，比如说手写数字为数字几，手写的潦草程度等等。由于这里我们对于输出数字的具体信息不做要求，只要求其能够最大程度与真实手写数字相似（能骗过判别器）即可。所以我们使用随机生成的向量来作为输入即可，这里面的随机输入最好是满足常见分布比如均值分布，高斯分布等。

Tips: 假如我们后面需要获得具体的输出数字等信息的时候，我们可以对输入向量产生的输出进行分析，获取到哪些维度是用于控制数字编号等信息的即可以得到具体的输出。而在训练之前往往不会去规定它。

2.2.2 关于判别器

对于判别器不用多说，往往是常见的判别器，输入为图片，输出为图片的真伪标签。

Tips: 同理，判别器与生成器一样，可以是任意的判别器模型，比如全连接网络，或者是包含卷积的网络等等。

2.2.3 如何训练

上面进一步说明了生成器和判别器，接下来说明如何训练。

基本流程如下：

初始化判别器D的参数d 和生成器G的参数g
从真实样本中采样m个样本{x1, x2, ..., xm}, 从先验分布噪声样本{z1, z2, ..., zm}并通过生成器获取m个生成样本{x'1, x'2, ..., x'm}。固定生成器G，训练判别器D尽可能好地准确判别真实样本和生成样本，尽可能大地区分正确样本和生成的样本。
循环k次更新判别器之后，使用较小的学习率来更新一次生成器的参数，训练生成器使其尽可能较小生成样本与真实样本之间的差距，也相当于尽量使得判别器判别错误。
多次更新迭代之后，最终理想情况是使得判别器判别不出样本来自于生成器的输出还是真实的输出。亦即最终样本判别概率均为0.5.

Tips: 之所以要训练k次判别器，再训练生成器，是因为要先拥有一个好的判别器，使得能够教好地区分出真实样本和生成样本之后，才好更为准确地对生成器进行更新。更直观的理解可以参考下图：

注：图中的黑色虚线表示真实的样本的分布情况，蓝色虚线表示判别器判别概率的分布情况，绿色实线表示生成样本的分布。 Z表示噪声， Z 到 x 表示通过生成器之后的分布的映射情况。

我们的目标是使用生成样本分布（绿色实线）去拟合真实的样本分布（黑色虚线），来达到生成以假乱真样本的目的。

可以看到在（a）状态处于最初始的状态的时候，生成器生成的分布和真实分布区别较大，并且判别器判别出样本的概率不是很稳定，因此会先训练判别器来更好地分辨样本。
通过多次训练判别器来达到（b）样本状态，此时判别样本区分得非常显著和良好。然后再对生成器进行训练。
训练生成器之后达到（c）样本状态，此时生成器分布相比之前，逼近了真实样本分布。
经过多次反复训练迭代之后，最终希望能够达到（d）状态，生成样本分布拟合于真实样本分布，并且判别器分辨不出样本是生成的还是真实的（判别概率均为0.5）。也就是说我们这个时候就可以生成出非常真实的样本啦，目的达到。

3. 训练相关理论基础

前面用了大白话来说明了训练的大致流程，下面会从交叉熵开始说起，一步步说明损失函数的相关理论，尤其是论文中包含min，max的公式如下图5形式：

图5 min max公式

判别器在这里是一种分类器，用于区分样本的真伪，因此我们常常使用交叉熵（cross entropy）来进行判别分布的相似性，交叉熵公式如下图6所示：

图6 交叉熵公式

Tips: 公式中 pi和 qi 为真实的样本分布和生成器的生成分布。由于交叉熵是非常常见的损失函数，这里默认大家都较为熟悉，就不进行赘述了。

在当前模型的情况下，判别器为一个二分类问题，因此可以对基本交叉熵进行更具体地展开如下图7所示：

图7 二分类交叉熵

Tips: 其中，假定 y1 为正确样本分布，那么对应的（ 1−y1 ）就是生成样本的分布。 D 表示判别器，则 �(�1) 表示判别样本为正确的概率，（（1−�(�1)) 则对应着判别为错误样本的概率。这里仅仅是对当前情况下的交叉熵损失的具体化。相信大家也还是比较熟悉。

将上式推广到N个样本后，将N个样本相加得到对应的公式如下：

图8 N个样本的情况时

OK，到目前为止还是基本的二分类，下面加入GAN中特殊的地方。

对于GAN中的样本点 �� ，对应于两个出处，要么来自于真实样本，要么来自于生成器生成的样本 ( 这里的 � 是服从于投到生成器中噪声的分布)。

其中，对于来自于真实的样本，我们要判别为正确的分布 �� 。来自于生成的样本我们要判别其为错误分布。将上面式子进一步使用概率分布的期望形式写出（为了表达无限的样本情况，相当于无限样本求和情况），并且让 �� 为 1/2 且使用 �(�) 表示生成样本可以得到如下图8的公式：

图8 GAN损失函数期望形式表达

OK，现在我们再回过头来对比原本的的 min�max� 公式，发现他们是不是其实就是同一个东西呢！:-D

图9 损失函数的min max表达

我们回忆一下上面2.2.3中介绍的流程理解一下这里的 min�max� 。

这里的 �(�,�)相当于表示真实样本和生成样本的差异程度。
先看 max��(�,�) 。这里的意思是固定生成器G，尽可能地让判别器能够最大化地判别出样本来自于真实数据还是生成的数据。
再将后面部分看成一个整体令 � = max��(�,�) ，看 min��，这里是在固定判别器D的条件下得到生成器G，这个G要求能够最小化真实样本与生成样本的差异。
通过上述min max的博弈过程，理想情况下会收敛于生成分布拟合于真实分布。

在我眼中的你，灿如春华，姣如秋月

文章到此结束，我们下次再见--<-<-<@

通俗理解GAN -- 基础认知的更多相关文章

Effective Java通俗理解（持续更新）
这篇博客是Java经典书籍<Effective Java(第二版)>的读书笔记,此书共有78条关于编写高质量Java代码的建议,我会试着逐一对其进行更为通俗易懂地讲解,故此篇博客的更新大约 ...
Effective Java通俗理解（下）
Effective Java通俗理解(上) 第31条:用实例域代替序数枚举类型有一个ordinal方法,它范围该常量的序数从0开始,不建议使用这个方法,因为这不能很好地对枚举进行维护,正确应该是利用 ...
Effective Java通俗理解（上）
这篇博客是Java经典书籍<Effective Java(第二版)>的读书笔记,此书共有78条关于编写高质量Java代码的建议,我会试着逐一对其进行更为通俗易懂地讲解,故此篇博客的更新大约 ...
CNN笔记：通俗理解卷积神经网络【转】
本文转载自:https://blog.csdn.net/v_july_v/article/details/51812459 通俗理解卷积神经网络(cs231n与5月dl班课程笔记) 1 前言 2012 ...
通俗理解LDA主题模型
通俗理解LDA主题模型 0 前言印象中,最開始听说"LDA"这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印 ...
CNN笔记：通俗理解卷积神经网络
CNN笔记:通俗理解卷积神经网络 2016年07月02日 22:14:50 v_JULY_v 阅读数 250368更多分类专栏: 30.Machine L & Deep Learning 机 ...
关于MQ 消息队列的通俗理解和 rabbitMQ 使用
消息队列,一听很高大上,现在很多分布式系统都在用这个消息中间件网上一搜, 说的都是些原理. 说下我的通俗理解, 你网上买了, 快递员给你投递, 会出现什么问题呢? 1 你不定时在家, 快递员来了 ...
范式通俗理解：1NF、2NF、3NF和BNCF
https://blog.csdn.net/wyh7280/article/details/83350722 范式通俗理解:1NF.2NF.3NF和BNCF原创hongiii 最后发布于2018-10 ...
通俗理解Android事件分发与消费机制
深入:Android Touch事件传递机制全面解析(从WMS到View树) 通俗理解Android事件分发与消费机制说起Android滑动冲突,是个很常见的场景,比如SliddingMenu与Li ...
关于MySQL中的自联结的通俗理解
关于MySQL中的自联结的通俗理解前言:最近在通过SQL必知必会这本书学习MySQL的基本使用,在学习中也或多或少遇到了点问题,我也正好分享给大家,我的这篇博客用到的所有表格的代码都是来自SQL必知 ...

随机推荐

使用率激增 250%，这份报告再次将 Serverless 推向幕前
简介: 本文是对 Datadog 最新的一份 Serverless 报告的解读,欢迎大家留言讨论. 本文是对 Datadog 最新的一份 Serverless 报告的解读,欢迎大家留言讨论. 每项新 ...
AI让边缘更智能边缘让AI无处不在
简介: 城市管理和城市服务逐步走向智能化,智慧化.到2019底,全国100%的副省级城市,95%以上的地级市,以及50%以上的县级市均提出建设新型智慧城市,并已经有32个主要城市成立了专门的大数据管 ...
[Caddy2] Caddyfile 使用其它 DNS provider
安装 caddy 的 dns provider 模块. https://github.com/caddy-dns/cloudflare 如果是在 Docker 中 build 模块按文档进行,通过 c ...
nginx+uwsgi介绍
一.nginx+uwsgi介绍 pip list # 查看安装过的模块 rpm -q nginx # 查看是否安装某款服务 pip install django == 1.11.11 # 安装djan ...
gorm 动态拼接查询条件
结构体 type Mould struct { MouldId string `grom:"column:mouldID"` MouldInteriorID string `gro ...
十三、.net core（.NET 6）搭建ElasticSearch(ES)系列之dotnet操作ElasticSearch进行存取的方法
.net core操作ES进行读写数据操作在Package包项目下,新增NEST包.注意,包版本需要和使用的ES的版本保持一致,可以避免因为不兼容所导致的一些问题.例如我本机使用的ES版本是7.13 ...
Wang Tile的Shader简易实现
在使用大面积的平铺纹理时,会导致重复感较强的贴图呈现在画面中.我们可以通过许多方法进行优化,WangTile就是其中一种. WangTile(王浩瓷砖)方法通过对每条边标记颜色,并在平铺时将相同颜色的 ...
磁盘空间满了报错cannot create temp file for here-document: No space left on device
如下:虚拟机设置的存储空间是20G,.目前用到100%了.执行命令会报错设备没有空间我想删除镜像释放空间,也无法操作分级找到文件,但是不知道删除哪个退出的容器都找不到了把昨天下午弄的删了容器 ...
模仿jinja2的模板语言实验，可用于简易框架中
mcw_str=''' wo shi {{ name }} ''' import re class myclass(): def inithtml(self): ret1 = re.search('{ ...
sass的几种输出格式，你都知道吗
输出格式说明 Sass编译输出的CSS格式可以自定义. 有4种输出格式: :nested – 嵌套格式 :expanded – 展开格式 :compact – 紧凑格式 :compressed – 压 ...

通俗理解GAN -- 基础认知

Smiling & Weeping

3. 训练相关理论基础

通俗理解GAN -- 基础认知的更多相关文章

随机推荐

热门专题