AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记

【AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记】的更多相关文章

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记这篇文章的任务是 "根据文本描述" 生成图像.以往的常规做法是将整个句子编码为condition向量,与随机采样的高斯噪音\(z\)进行拼接,经过卷积神经网络(GAN,变分自编码等)来上采样生成图像.这篇文章发现的问题是:仅通过编码整个句子去生成图像会忽略掉一些细粒度的信息,而这些细粒度的信…

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利用 GANs 进行高质量图像生成,分为两个阶段进行,coarse to fine 的过程.据说可以生成 256*256 的高清图像. 基于文本生成对应图像的工作已经有了,比如说 Attribute2Image,以及最开始的基于文本生成图像的文章等等. Stacked Generated Adver…

《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记

出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错值得借鉴)重点阐述了生成音乐和生成图片,视频及语音的不同.首先音乐是基于时间序列的:其次音符在和弦.琶音(arpeggios).旋律.复音等规则的控制之下的:同时一首歌曲是多track的.总之不能简单堆叠音符.本文基于GAN提出了三种模型来生成音乐:jamming model, the composer model and the hybri…

AsciiDoc Text based document generation

AsciiDoc Text based document generation AsciiDoc Home Page http://asciidoc.org/ AsciiDoc is a text document format for writing notes, documentation, articles, books, ebooks, slideshows, web pages, man pages and blogs. AsciiDoc files can be trans…

论文笔记之：Generative Adversarial Text to Image Synthesis

Generative Adversarial Text to Image Synthesis ICML 2016 摘要:本文将文本和图像练习起来,根据文本生成图像,结合 CNN 和 GAN 来有效的进行无监督学习. Attribute Representation: 是一个非常具有意思的方向.由图像到文本,可以看做是一个识别问题:从文本到图像,则不是那么简单. 因为需要解决这两个小问题: 1. learning a text feature representation that captur…

《MIDINET: A CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORK FOR SYMBOLIC-DOMAIN MUSIC GENERATION》论文阅读笔记

出处 arXiv.org (引用量暂时只有3,too new)2017.7 SourceCode:https://github.com/RichardYang40148/MidiNet Abstract 以前的音乐生成工作多基于RNN,受DeepMind提出的WaveNet的启发,作者尝试用CNN来生成音乐,确切地说,用GAN来生成音乐,模型称为MidiNet.与Google的MelodyRNN(magenta)相比,在realistic和pleasant上旗鼓相当,yet MidiNet’s…

《Image Generation with PixelCNN Decoders》论文笔记

论文背景:Google Deepmind团队于2016发表在NIPS上的文章 motivation:提出新的image generation model based on pixelCNN[1]架构.可以为任意输入vector结合标签生成图片,在先验信息的前提下加入条件分布信息模型关键:根据链式条件概率,逐行生成,逐像素点生成相对于GAN的优势: GAN只善于处理连续数据,pixelCNN对连续数据和非连续数据都能很好perform 链式likelihood表达可以比GAN更好的提供生成目标…

论文阅读 | Adversarial Example Generation with Syntactically Controlled Paraphrase Networks

[pdf] [code] 句法控制释义网络 SCPNS 生成对抗样本我们提出了句法控制意译网络(SCPNs),并利用它们来生成对抗性的例子.给定一个句子和一个目标语法形式(例如,一个选区解析),scpn经过训练,可以用所需的语法产生句子的释义.我们展示了为这个任务创建训练数据是可能的,首先在非常大的范围内进行反向翻译,然后使用解析器来标记在这个过程中自然发生的语法转换.这样的数据允许我们用额外的输入训练一个神经编码器解码模型来指定目标语法.自动化和人工评估的结合表明,与基准(非受控)释义系统…

CSAGAN：LinesToFacePhoto: Face Photo Generation from Lines with Conditional Self-Attention Generative Adversarial Network - 1 - 论文学习

ABSTRACT 在本文中,我们探讨了从线条生成逼真的人脸图像的任务.先前的基于条件生成对抗网络(cGANs)的方法已经证明,当条件图像和输出图像共享对齐良好的结构时,它们能够生成视觉上可信的图像.然而,这些模型无法合成具有完整定义结构的人脸图像,例如眼睛.鼻子.嘴巴等,特别是当条件线图缺少一个或多个部分时.为了解决这一问题,我们提出了一个条件自注意生成对抗网络(CSAGAN).我们在cGANs中引入了条件自注意机制来捕获面部不同区域之间的长范围依赖关系.我们还建立了一个多尺度判别器.大规模判别…

《StackGAN: Text to Photo-realistic Image Synthesis with Stacked GAN》论文笔记

出处:arxiv 2016 尚未出版 Motivation 根据文字描述来合成相片级真实感的图片是一项极具挑战性的任务.现有的生成手段,往往只能合成大体的目标,而丢失了生动的细节信息.StackGAN分两步来完成生成目标:Stage-I从文字中生成低分辨率的大体框架和基本色彩,Stage-II以文字和Stage-I中生成的基本框架图为输入,生成高分辨率的具体细节.运用StackGAN可以生成当前state_of_art的256*256分辨率的文字转换图像.训练数据集采用了CUB and Oxfo…