【题外话:今天上课我做了一个关于DA-GAN技术的ppt演讲,写一点东西留念一下...】

转载请注明出处:https://www.cnblogs.com/GraceSkyer/p/9107471.html

 

DA-GAN技术是微软亚洲研究院新研发的一项技术,可能对今后的艺术创造模式产生巨大影响。

 前言

  首先,大家还记得微软小冰吗,目前最新的第五代拥有“高级感官”的小冰不仅会唱歌、讲故事、写文章,还能主动与人交往。除此之外,她还出版了人类首部人工智能灵思诗集《阳光失了玻璃窗》,这已体现其具有文字的创造力。

             

  我们知道,人工智能可以大致分为下图四个层次:

  从下往上依次是运算智能、感知智能、认知智能和创造智能。而正如前面举例的小冰,其创作的诗集就已经在文字方面体现了人工智能在创造能力上的发展。而我要介绍的DA-GAN技术,是微软亚洲研究院研发的一种让机器绘画创造成为可能的技术。

GAN(Generative Adversarial Nets)简介

   GAN(Generative Adversarial Nets)生成式对抗网络,启发自博弈论中的二人零和博弈(two-player game),GAN 模型中的两位博弈方分别由生成式模型(generative model)和判别式模型(discriminative model)充当。生成模型 G 捕捉样本数据的分布,用服从某一分布(均匀分布,高斯分布等)的噪声 z 生成一个类似真实训练数据的样本,追求效果是越像真实样本越好;判别模型 D 是一个二分类器,估计一个样本来自于训练数据(而非生成数据)的概率,如果样本来自于真实的训练数据,D 输出大概率,否则,D 输出小概率。

  简单说明GAN就比如:生成网络 G 好比假币制造团伙,专门制造假币,判别网络 D 好比警察,专门检测使用的货币是真币还是假币,G 的目标是想方设法生成和真币一样的货币,使得 D 判别不出来,D 的目标是想方设法检测出来 G 生成的假币。双方在训练中都极力优化自己的网络,从而形成竞争对抗,直到最后G可以以假乱真,D难以判定G是否为真时,目标就达成了。实际中,我们就可以用这个生成式的模型G来生成图片。

Deep Attention GAN(DA-GAN)简介

  但是,基于GAN展开的研究工作使得翻译图像的分布与目标集合的分布无法区分。这样的集合约束不能学习实例级别的对应关系(例如对象配置任务中对齐的语义部分)。这种限制常常导致误报(例如几何或语义伪像),并进一步导致模式崩溃问题。为了解决上述问题,微软研究院提出了一个由Deep Attention GAN(DA-GAN)提供的用于实例级图像转换的新框架。

  这样的设计使DA-GAN能够将翻译两个集合的样本任务分解成翻译高度结构化的潜在空间中的实例。具体来说,我们共同学习一个深入关注的编码器,通过参加学习的实例对可以发现实例级别的对应关系。因此,可以在集合级别和实例级别上利用约束条件。

DA-GAN实现效果

  我们首先来看一下DA-GAN实现的效果是什么样的。当我们用文字描述“我想要一只腹部、胸部为白色、头顶灰色、翅膀有白色翅斑的小鸟”时,计算机便可以通过DA-GAN在几毫秒的时间内生成多个与文字描述高度吻合的形象,如下图所示。这些由计算机生成的鸟 完全符合人们期待的鸟的形象,不过它有可能是真实存在于现实世界中的,也有可能是系统根据鸟类特征和文字描述“创造”出来的一只“鸟”。

技术核心部分

  DA-GAN在技术上最大的创新是 “隐空间”(latent space),这是它最核心的部分。

   与传统的数据训练模式需要pair data(数据对)不同,DA-GAN不需要将文本与真实的鸟一一对应,而是将原始图片分割成不同的部分(暂称该部分的样本为T),例如头部、身体、尾巴、姿势等,不同的部分分别投射到一个“隐空间”(暂称该部分的生成样本为T’),然后通过大量的图片训练,去验证T-T’对应的精确程度,也就是去不断验证该“隐空间”的好坏,从而不断迭代,确保从T-T’的过程并非随机产生,而是保持一定的规则,进而让“隐空间”的模型逐步趋于完善。这个过程就是DA-GAN系统最为核心的创新所在,也是它能够更加智能、真正具有举一反三学习能力的关键点。

  上图用于说明DA-GAN流水线的姿态变形示例。给定从源域S和目标域T两个鸟类的图像,姿态变形的目标是将源姿态转换为目标姿态,同时仍然保持s的身份。
(a)中显示了前馈过程,其中两个输入图像被送到DAE中,并将它们投影到一个潜在空间(用虚线框标记)。然后,G从潜在空间中取出这些高度结构化的表示(DAE(s)和DAE(t)),以生成转换后的样本,即s0 = G(DAE(s)),t0 = G(DAE(t))。 (b)中显示了上述DAE的细节(以橙色块标记)。给定图像X,定位函数floc将首先根据X的特征图(即E(X),其中E是可以以任何形式使用的编码器)预测N个关注区域的坐标。然后在X上产生并激活N个注意掩模以产生N个关注区域。最后,每个区域的功能由实例级别的表示组成。通过在S和T上操作相同的方式,可以在潜在空间中找到实例级别的对应关系。我们利用实例级别和集合级别上的约束条件进行优化,如(c)所示。(d)中列出了所有符号。

  接下来,DA-GAN就可以基于该模型创作用户想要的鸟类了,正就如我前面说的,输入你的需求,一只栩栩如生的鸟就会相应生成。它可能是真实存在的,也可能是一只拥有A种鸟类的头部特征、B种鸟类的身体特征、C种鸟类的尾部特征以及任意姿态的一只“想象中 的鸟”,而在现实世界里并没有这样的鸟类,但它看上去就是一只真正的 “鸟”。

优势

  其分辨率已经从其他相关技术能够达到的64*64升级到了256*256,分辨率的提高,意味着图片每个部分所包含的细节信息更加完善,也正因为细节的丰富,才使得DA-GAN的表现在与真实世界的对比中优于同类技术。

  对于DA-GAN来说,最重要的是早期的数据训练,图片越多质量越高。DA-GAN生成的众多新的图片,又可以反哺给该系统,从而让它拥有更多的学习数据。也就是说,只要基于少量的原始数据,它就可以产生更多“真实”的练习数据,大大改善某些领域真实数据缺乏的问题。利用这一优势,研究团队实现了业内首次在鸟类数据集中增加生成数据,并将系统的准确度提升了两个百分点。

 

 

  下图是数据增强结果——一个姿态变换任务。图中有三组图片,每组图片的第一列是原始样本,第二列是目标样本,第三列是DA-GAN生成的鸟类。它保存了与第一列鸟类类别一致,但保留了第二列的鸟类姿态。

发展前景

  在未来,或许,DA-GAN技术将开启一个每个人都是创造者的时代。只要你的需求输入它能够读懂,哪怕是你脑海中幻想出来的物体和场景,它都能“画”出来。而由它所描绘出来的虚拟世界,可能一点都不比文学家、艺术家创作出来的场景逊色。

  它能为安防领域提供更真实的犯罪嫌疑人画像;在生活购物方面帮助人们贴合自身的情况试穿网络售卖的衣物,它也可能让已经灭绝的动植物,通过记载文字的描述重新跃然纸上,等等。它可以用于任何与图片相关的创作。

【这几个应用,老师觉得有些牵强???】

【然后我回答了两个问题,一个是无监督学习方式,一个是... 我又讲了其他类似的技术... Over...  .) 】

参考:

DA-GAN技术:计算机帮你创造奇妙“新物种”

【读书笔记】DA-GAN: Instance-level Image Translation

不要怂,就是GAN (生成式对抗网络) (一): GAN 简介

GAN学习笔记(一)——初探GAN

其他阅读(可能跟本博客内容无关,我看着了解了一点...):

http://www.cyzone.cn/article/14379.html 【了解了一下“视觉文字”以及一种图像分析方式...】

https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247497045&idx=2&sn=0ee27b910c192f9fc91dc0c790c8f68d&chksm=e8d04227dfa7cb31fe81cdca28e8ed7679bfbdd1b228c88382735c3e40ebd5da0fed1b1bc0d6&mpshare=1&scene=23&srcid=0527JjXjfwm1OSdCnqx27958#rd【这个看起来挺有意思...】

感兴趣的可以再了解了解“视频结构化”。。。。。。

DA-GAN技术【简介】【机器通过文字描述创造图像】的更多相关文章

  1. Java Servlet 技术简介

    Java Servlet 技术简介 Java 开发人员兼培训师 Roy Miller 将我们现有的 servlet 介绍资料修改成了这篇易于学习的实用教程.Roy 将介绍并解释 servlet 是什么 ...

  2. CSS border三角、圆角图形生成技术简介

    http://www.zhangxinxu.com/wordpress/?p=794 一.前言 利用CSS的border属性可以生成一些图形,例如三角或是圆角.纯粹的CSS2的内容,没有兼容性的问题, ...

  3. FC总线技术简介

    FC是由美国标准化委员会(ANSI)的X3T11小组于1988年提出的高速串行传输总线,解决了并行总线SCSI遇到的技术瓶颈,并在同一大的协议平台框架下可以映射更多FC-4上层协议.FC具备通道和网络 ...

  4. 常见爬虫/BOT 对抗技术简介(二)

    上一篇文章分别从网络协议,Robots文件,JS渲染,行为分析等多方面讲了些“反爬虫”,“反-反爬虫”技术. 点击查看:<常见爬虫/BOT 对抗技术简介(一)> 本文将主要介绍各种IP地址 ...

  5. 【转】Android 防破解技术简介

    http://www.cnblogs.com/likeandroid/p/4888808.html Android 防破解技术简介 这几年随着互联网的不断发展,Android App 也越来越多!但是 ...

  6. InfiniBand技术简介

    InfiniBand技术简介   转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese 介绍         随着CPU和通讯处理速度的 ...

  7. Windows NT 技术简介

    Windows NT 技术简介 NT:New Technoly(新技术,因比DOS.WIN9X采用了很多新技术而得名) Windows NT基本介绍 WindowsNT是Microsoft推出的面向工 ...

  8. P2P技术简介

    P2P技术简介 NAT( Network Address Translation)穿越(俗称打洞)技术 前言: p2p已经存在于我们生活的方方面面:我们通过下载在工具(比如迅雷,bitorent,各种 ...

  9. 【CUDA并行程序设计系列(1)】GPU技术简介

    http://www.cnblogs.com/5long/p/cuda-parallel-programming-1.html 本系列目录: [CUDA并行程序设计系列(1)]GPU技术简介 [CUD ...

随机推荐

  1. android service服务的学习

    1.Service简单概述   Service(服务)是一个一种可以在后台执行长时间运行操作而没有用户界面的应用组件.服务可由其他应用组件启动(如Activity),服务一旦被启动将在后台一直运行,即 ...

  2. [Redis] redis数据备份恢复与持久化

    数据库备份,使用save命令,将会在redis的安装目录中生成dump.rdb 例如:在我的目录下 redis/src/dump.rdb 使用命令config get dir,获取当前redis的安装 ...

  3. BAT技术需求,你能达到多少?

    作为中国互联网界的传奇和标杆企业,BAT 三家公司的一举一动受互联网人的精密亲密关注.进入 BAT 成为大厂的一员成了许多互联网人职业生活生存追逐的方针之一. 本文的作者作为一个非科班毕业,出身于三流 ...

  4. cv程序员的日常_1

    某天pom文件粘贴报红 然后我就问我同事 然后我就百度 https://blog.csdn.net/guoyiyun_tz/article/details/82115024 看完之后…emmmm没错啊 ...

  5. 使用Hexo和Github Pages快速搭建个人博客

    在编程路上,每天都在网上查看别人的博客,大牛的文章写得通俗易懂,同时博客网站也非常华丽.作为出入编程的一枚小白也想拥有这样一个自己的网站.那就立马去买一个域名了,在网上找教程来搭建. 搭建的过程还算比 ...

  6. python学习之老男孩python全栈第九期_数据库day002知识点总结 —— MySQL数据库day2(全部)

    一. 复习1. MySQL: - 服务端 - 客户端2. 通信交流 - 授权 - SQL语句 - 数据库 创建数据库: create database db1 default charset utf8 ...

  7. 简单的PHP的任务队列

    文章太长,不作过多介绍,反正,文章的头部就说明了大概的意思...原文如下:写了一个简单的队列任务处理.多进程任务,异步任务可能会用到这个(主要是命令行应用)比如,任务的某个一个环节速度十分不稳定,可能 ...

  8. css3动画运用

    https://daneden.github.io/animate.css/ https://minimamente.com/example/magic_animations/    http://i ...

  9. PowerDesigner 常用配置修改

    PowerDesigner中Name与Code同步的问题 转自:http://blog.sina.com.cn/u/48932504010005t9 PowerDesigner中,但修改了某个字段的n ...

  10. 葡萄城报表介绍:B/S 报表软件

    B/S 报表软件定义 B/S(Browser/Server,浏览器/服务器模式)也称 B/S 结构,是 WEB 兴起后的一种网络结构模式.B/S 模式是由最开始的 C/S(Client/Server, ...