你的GAN训练得如何--GAN 的召回率（多样性）和精确率（图像质量）方法评估

生成对抗网络（GAN）是当今最流行的图像生成方法之一，但评估和比较 GAN 产生的图像却极具挑战性。之前许多针对 GAN 合成图像的研究都只用了主观视觉评估，一些定量标准直到最近才开始出现。本文认为现有指标不足以评估 GAN 模型，因此引入了两个基于图像分类的指标——GAN-train 和 GAN-test，分别对应 GAN 的召回率（多样性）和精确率（图像质量）。研究者还基于这两个指标评估了最近的 GAN 方法并证明了这些方法性能的显著差异。上述评估指标表明，数据集复杂程度（从 CIFAR10 到 CIFAR100 再到 ImageNet）与 GAN 质量呈负相关关系。

生成对抗网络（GAN）[19] 是由一对存在竞争关系的神经网络——生成器和判别器——组成的深度神经网络架构。通过交替优化两个目标函数训练该模型，这样可以让生成器 G 学会产生与真实图像类似的样本，还能让判别器 D 学会更好地甄别真假数据。这种范式潜力巨大，因为它可以学会生成任何数据分布。这种模型已经在一些计算机视觉问题上取得了一定成果，例如文本到图像的转换 [56] 和图像到图像的转换 [24,59]、超分辨率 [31] 以及逼真的自然图像生成 [25]。

自从提出了 GAN 模型后，近几年间出现了许多变体，如以提升生成图像质量为目的的 GAN 模型 [12,15,25,36] 和以稳定训练过程为目的的 GAN 模型 [7,9,20,34,36,40,57]。通过调整附加信息（如类别标签），GAN 还可以被修改为生成给定类别图像的网络 [16,35,37,41]。实现这一想法有许多方法：连结标签 y 和生成器的输入 z 或中间特征映射 [16,35]，使用条件批归一化 [37] 以及用辅助分类器增强鉴别器 [41]。随着这些方法的提出，有一个问题就变得重要了起来：该如何评价和比较这些模型呢？

评估和比较 GAN，或者说评估和比较 GAN 产生的图像，是一件极具挑战性的事，部分原因是缺乏明确的、在可比较概率模型中常用的似然方法 [51]。因此，之前许多针对 GAN 合成的图像的工作都只用了主观视觉评估。如图 1 所示，当前最佳 GAN 生成图像的样本 [36]，用主观评估方法无法精确评估图像质量。近两年的研究已经开始尝试通过定量方法评估 GAN[22,25,32,46]。

图 1：当前最佳 GAN 模型（如 SNGAN）[36] 生成逼真图像，这些图像难以用主观评估法与真实图像进行比较。我们的基于准确率的图像分类新方法解决了这个问题，并展示了真实图像和生成图像间的显著差异。

将 Inception 分数（IS）[46] 和 Fr´echet Inception 距离（FID）[22] 作为与生成图像视觉质量相关的临时指标。IS 通过计算图像产生的 (logit) 响应和边际分布（即在 ImageNet 上训练出来的 Inception 网络生成的全部图像的平均响应）之间的 KL 散度衡量生成图像的质量。换句话说，IS 无法与目标分布的样本进行比较，仅可用于量化生成样本的多样性。FID 比较的是真实图像和生成图像间的 Inception 激活值（Inception 网络中倒数第二层的响应）。但这样的比较将真实图像和生成图像的激活值近似为高斯分布（参见等式（2）），计算其平均值和方差，但因为太过粗糙而无法捕捉其细节。这些评估方法都依赖于经过 ImageNet 预训练的 Inception 网络，这对其他数据集（如面部数据集和生物医学成像数据集）来说远不够理想。总而言之，IS 和 FID 是评估训练进展的有用指标，但它们无法评估真实世界中的任务。正如我们在第 5 节中讨论的那样，与我们的指标（以表 2 中的 SNGAN 和 WPGAN-GP（10M）为例）不同，这些指标不足以精确地区别出当前最佳的 GAN 模型。

还有一种评估方法是根据精确率和召回率计算生成样本到真实数据流形间的距离 [32]。高精确率意味着生成样本与数据流形很接近，而高召回率意味着生成器的输出样本很好地覆盖了流形。这些指标还是很理想主义的，因为无法在流形未知的自然图像数据上进行计算。实际上，[32] 中的评估方法也只能用在由灰度三角形组成的合成数据中。另一种用于比较 GAN 模型距离的是 SWD[25]。SWD 是真实图像和生成图像间的 Wasserstein-1 距离的估计值，它计算的是从图像的 Laplacian 金字塔表征中提取的局部图像之间的数据相似性。正如第 5 节所说，SWD 的信息量低于我们的评价指标。

我们在本文中提出了新的评价指标，是用 GAN-train 分数和 GAN-test 分数比较类条件的 GAN 架构。对于这两种指标，我们都依赖神经网络架构来进行图像分类。为了计算 GAN-train，我们用 GAN 生成的图像训练了分类网络，然后在由真实图像组成的测试集上评估了其表现。直接地说，这度量了学习到的（生成图像）分布和目标（真实图像）分布间的差异。可以得出结论：如果学习用于区分针对不同类别的生成图像特征的分类网络可以对真实图像进行正确分类，那么生成图像与真实图像相似。换句话说，GAN-train 类似于召回率度量，因为 GAN-train 表现好意味着生成的样本足够多样化。但是，GAN-train 也需要足够的精确率，否则分类器会受到样本质量的影响。

我们的第二个指标，GAN-test，是在真实图像上训练并在生成图像上评估得到的网络的准确率。该指标与精确率类似，值比较高意味着生成的样本与（未知）自然图像分布近似。除了这两个指标外，我们还研究了 GAN 生成图像在强化训练数据方面的作用。可以将其视为衡量生成图像多样性的指标。我们在图 1 中用 GAN-train 指标阐明了我们的评估方法的效果，尤其是在主观评价不充分的情况下。我们将在第 3 节讨论这些评估指标的细节。

正如第 5 节中广泛的实验结果以及补充材料和技术报告中的附录 [5] 所示，与之前讨论的所有评估指标相比（包括没有得出结论的人类研究），这些指标在评估 GAN 方面的信息要丰富得多。尤其是我们还对当前最佳的两个 GAN 模型（WGAN-GP[20] 和 SNGAN[36]）以及其他一些生成模型 [45,47] 进行了评估，以提供基线比较。用 MNIST[30]、CIFAR10、CIFAR100[28] 和 ImageNet[14] 数据集评估了图像分类表现。实验结果表明，随着数据集复杂度的增加，GAN 图像的质量显著降低。

论文：How good is my GAN?

论文链接：https://arxiv.org/pdf/1807.09499.pdf

摘要：生成对抗网络（GAN）是当今最流行的图像生成方法之一。尽管已经有了不少可以直观感受到的令人印象深刻的成果，但一些定量标准直到最近才出现。我们认为现有指标不足以评估模型，因此在本文中引入了两个基于图像分类的指标——GAN-train 和 GAN-test，这两个指标分别对应的是 GAN 的召回率（多样性）和精确率（图像质量）。我们基于这两个指标评估了最近的 GAN 方法并证明了这些方法性能的显著差异。此外，我们的评估指标清楚地表明，数据集复杂程度（从 CIFAR10 到 CIFAR100 再到 ImageNet），与 GAN 质量呈负相关关系。

3. GAN-train 和 GAN-test

条件 GAN 模型的一个重要特征是生成的图像不仅要逼真，还要能辨识出属于一个给定的类别。一个可以完美捕获目标分布的理想 GAN 可以生成一个新的图像数据集 S_g，这个数据集与原始的训练集 S_t 没什么区别。假设这些数据集大小相同，根据这两个数据集中的任意一个训练出来的分类器应该有同样的验证准确率。当数据集足够简单（例如 MNIST[48]）时确实是这样（见 5.2 节）。在这种最佳 GAN 特性的推动下，我们设计了两个分数来评估 GAN，如图 2 所示。

图 2：GAN-train 和 GAN-test 图示。GAN-train 根据 GAN 生成图像训练了一个分类器，并在真实图像上进行测试。该指标评估了 GAN 生成图像的多样性和真实性。GAN-test 根据真实图像训练了分类器，并在 GAN 生成图像上进行评估。该指标评估了 GAN 生成图像的真实性。

GAN-train 是在 S_g 上训练，在由真实图像组成的验证集 S_v 上测试的分类器的准确率。当 GAN 不够好的时候，GAN-train 会比在 S_t 上训练出来的分类器的验证准确率低。造成这种情况的原因有很多，例如，（i）与 S_t 相比，模式下降导致 S_g 的多样性降低；（ii）生成样本不够逼真，以至于分类器无法学到相关特征；（iii）GAN 可以将类别混在一起并混淆分类器。不幸的是，我们无法确定 GAN 的问题在哪。当 GAN-train 的准确率与验证集的准确率相近时，意味着 GAN 产生的图像质量很高且和训练集一样多样化。正如我们在 5.3 节中所说的那样，多样性会随着生成图像数量的变化而变化。我们将在本节末尾的评价讨论中对其进行分析。

GAN-test 是在原始训练集 S_t 上训练，但在 S_g 上测试得到的分类器的准确率。如果 GAN 能很好地进行学习，这就会是一项简单的任务，因为这两个数据集的分布是一样的。理想情况下，GAN-test 应该和验证准确率相近。如果 GAN-test 明显高了，那就意味着 GAN 过拟了，即它只是简单地记住了训练集。相反，如果 GAN-test 明显低了，则说明 GAN 无法很好地捕获目标分布且 GAN 生成的图像质量堪忧。注意，该指标无法说明样本的多样性，因为可以完美记忆每一个训练图像的模型可以得到很高的分数。GAN-test 与 [32] 中的精确度相关，它量化了生成图像与数据流形之间的接近程度。

为了深入了解 GAN 生成图像的多样性，我们通过大小不同的生成图像数据集得到了 GAN-train 准确率，将其与根据相应大小的真实数据训练得到的分类器的验证准确率相比较。如果所有的生成图像都是完美的，GAN-train 的 S_g（其中 GAN-train 等于小尺寸训练集的验证精度）的大小将会是 S_g 中不同图像数量的良好估计。我们在实践中观察到，在 GAN 生成样本数量确定的情况下，GAN-train 准确率是饱和的（见第 5.3 节中的图 4（a）和 4（b））。这是一种度量 GAN 多样性的方法，与 [32] 中的召回率相似，都是度量 GAN 覆盖的数据流形的分数的方法。

5. 实验

表 1：CIFAR10 实验。IS：越高越好。FID 和 SWD：越低越好。为了提高可读性，此处的 SWD 值扩大了 1000 倍。GAN-train 和 GAN-test 是以百分比形式给出的准确率（越高越好）。

图 3：第一列：SNGAN 生成的图像。其他列：来自 CIFAR10「train」的 5 幅图像，最接近基线 CIFAR10 分类器特征空间中第一列的 GAN 图像。

表 2：CIFAR100 实验。细节参考表 1 标题。

表 3：ImageNet 实验。SNGAN* 指经过 850k 次迭代训练得到的模型。细节参考表 1 标题。

图 4：改变生成图像数据集大小对 GAN-train 准确率产生的影响。为了便于比较，我们还展示改变真实图像训练数据集大小对结果（蓝色曲线）产生的影响（最好以 pdf 格式查看）。

图 5：用真实图像和 SNGAN 生成的图像结合的数据集训练分类器的结果。

表 4：用缩减的真实图像数据集训练的 SNGAN 的数据强化。在真实图像数据集或真实图像和 SNGAN 生成的图像相结合的数据集（real+GAN）上训练得到的分类器。分类器准确率以百分数形式表示。

你的GAN训练得如何--GAN 的召回率（多样性）和精确率（图像质量）方法评估的更多相关文章

不要怂，就是GAN (生成式对抗网络) （四）：训练和测试 GAN
在 /home/your_name/TensorFlow/DCGAN/ 下新建文件 train.py,同时新建文件夹 logs 和文件夹 samples,前者用来保存训练过程中的日志和模型,后者用来保 ...
GAN训练技巧汇总
GAN自推出以来就以训练困难著称,因为它的训练过程并不是寻找损失函数的最小值,而是寻找生成器和判别器之间的纳什均衡.前者可以直接通过梯度下降来完成,而后者除此之外,还需要其它的训练技巧. 下面对历年关 ...
[GAN] How to use GAN - Meow Generator
一篇介绍GAN应用的文章.今后GAN模型学习的主要内容. 中文链接:萌物生成器:如何使用四种GAN制造猫图原文链接:https://ajolicoeur.wordpress.com/cats/ 项目 ...
【GAN与NLP】GAN的原理 —— 与VAE对比及JS散度出发
0. introduction GAN模型最早由Ian Goodfellow et al于2014年提出,之后主要用于signal processing和natural document proces ...
GAN实战笔记——第一章GAN简介
GAN简介一.什么是GAN GAN是一类由两个同时训练的模型组成的机器学习技术:一个是生成器,训练其生成伪数据:另一个是鉴别器,训练其从真实数据中识别伪数据. 生成(generative)一词预示着 ...
GANs和低效映射
生成对抗网络(GANs)被誉为生成艺术领域的下一纪元,这是有充分理由的.新技术一直是艺术的驱动因素,从颜料的发明到照相机再到Photoshop-GAN是自然而然的.例如,考虑下面的图片,由埃尔加马勒发 ...
评价指标的局限性、ROC曲线、余弦距离、A/B测试、模型评估的方法、超参数调优、过拟合与欠拟合
1.评价指标的局限性问题1 准确性的局限性准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷.比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率.所以,当 ...
Spark2.0机器学习系列之4：Logistic回归及Binary分类（二分问题）结果评估
参数设置 α: 梯度上升算法迭代时候权重更新公式中包含 α : http://blog.csdn.net/lu597203933/article/details/38468303 为了更好理解 α和 ...
【Udacity】机器学习性能评估指标
评估指标 Evaluation metrics 机器学习性能评估指标选择合适的指标分类与回归的不同性能指标分类的指标(准确率.精确率.召回率和 F 分数) 回归的指标(平均绝对误差和均方误差) ...

随机推荐

在树莓派上运行 .net core 2.1 程序并实现开机启动
本篇文章完整的说明如和在树莓派上运行 .net core2.1程序,当然也参考了其他的博客,此处结合我自己的经验,再写一篇完整的博客,方便大家,还有我自己进行查阅. https://blog.csdn ...
Objective-C和Swift混合编程开发
创建混编的Framework工程第一步:创建target为Framework的工程打开Xcode6-Beta,菜单栏File—>New—>Project; 创建一个新的工程,工程模板选 ...
magento关联产品
<?php $related= $_product->getRelatedProducts(); foreach($related as $_item): $_item = $_item- ...
MQTT连接服务器返回2
/********************************************************************************* * MQTT连接服务器返回2 * ...
C语言SQLite3基本操作Demo
/************************************************************************** * C语言SQLite3基本操作Demo * 声 ...
Unity3D 发布APK安卓环境配置步骤、安装、教程（含Java/Android）(超全流程)
Unity3D安卓环境配置运行本文提供全流程,中文翻译.Chinar坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) Chinar -- 心分享. ...
10款PHP开源网店系统
在当今经济危机的大环境下,网上购物越来越来吃香,网上开店成本低,快捷方便,出名的电子商务网站有淘宝,拍拍,Ebay或是最新的百度有啊,这些网站都提供开店的机会,如果是想自己搭建购物平台,可以从下面选择 ...
hdu1114 dp（完全背包）
题意:已知空钱罐质量和满钱罐质量(也就是知道钱罐里的钱的质量),知道若干种钱币每种的质量以及其价值,钱币都是无限个,问最少钱罐中有多少钱. 这个题在集训的时候学长给我们做过,所以你会做是应该的,由于已 ...
（转）Linux 定时关机、休眠命令
立刻关机:sudo haltsudo init 0 sudo shutdown -h nowsudo shutdown -h 0....定时/延时关机:sudo shutdown -h 19:3019 ...
C# NPOI导出Excel和EPPlus导出Excel
转自:http://www.cnblogs.com/tanpeng/p/6155749.html 系统中经常会使用导出Excel的功能.之前使用的是NPOI,但是导出数据行数多就报内存溢出. 最近看到 ...

你的GAN训练得如何--GAN 的召回率（多样性）和精确率（图像质量）方法评估

你的GAN训练得如何--GAN 的召回率（多样性）和精确率（图像质量）方法评估的更多相关文章

随机推荐

热门专题