当 AI 邂逅绘画艺术,能迸发出怎样的火花?
简介: 2021年初,OpenAI 团队发布了能够根据文本描述生成图像的 DALL-E 模型。由于其强大的跨模态图像生成能力,引起自然语言和视觉圈技术爱好者的强烈追捧。仅仅一年多的时间,多模态图像生成技术如雨后春笋般开始涌现。本文从技术兴趣出发,对多模态图像生成技术与经典工作进行介绍,最后探索如何使用多模态图像生成进行神奇的 AI 绘画艺术创作。
作者 | 心诚 煁光
来源 | 阿里开发者公众号
前言
什么是 AI?在你的脑海中可能浮现由一个个神经元堆叠起来的神经网络。那什么是绘画艺术?是达芬奇的《蒙娜丽莎的微笑》,是梵高的《星空夜》、《向日葵》,还是约翰内斯·维米尔的《戴珍珠耳环的少女》?当 AI 遇上绘画艺术,它们之间能擦出什么样的火花呢?
2021年初,OpenAI 团队发布了能够根据文本描述生成图像的 DALL-E 模型。由于其强大的跨模态图像生成能力,引起自然语言和视觉圈技术爱好者的强烈追捧。仅仅一年多的时间,多模态图像生成技术如雨后春笋般开始涌现,期间也诞生了许多利用这些技术进行 AI 艺术创作的应用,比如最近火得一塌糊涂的 Disco Diffusion。如今,这些应用正逐渐走进艺术创作者和普通大众的视野,成为了很多人口中的“神笔马良”。
本文从技术兴趣出发,对多模态图像生成技术与经典工作进行介绍,最后探索如何使用多模态图像生成进行神奇的 AI 绘画艺术创作。
笔者使用 Disco Diffusion 创作的 AI 绘画艺术作品
多模态图像生成概念
多模态图像生成(Multi-Modal Image Generation)旨在利用文本、音频等模态信息作为指导条件,生成具有自然纹理的逼真图像。不像传统的根据噪声生成图像的单模态生成技术,多模态图像生成一直以来就是一件很有挑战的任务,要解决的问题主要包括:
(1)如何跨越“语义鸿沟”,打破各模态之间固有的隔阂?
(2)如何生成合乎逻辑的,多样性的,且高分辨率的图像?
近两年,随着 Transformer 在自然语言处理(如 GPT)、计算机视觉(如 ViT)、多模态预训练(如 CLIP)等领域的成功应用,以及以 VAE、GAN 为代表的图像生成技术有逐渐被后起之秀——扩散模型(Diffusion Model)赶超之势,多模态图像生成的发展一发不可收拾。
多模态图像生成技术与经典工作
分类
按照训练方式采用的是 Transformer 自回归还是扩散模型的方式,近两年多模态图像生成重点工作分类如下:
Transformer 自回归
采取 Transformer 自回归方式的做法往往将文本和图像分别转化成 tokens 序列,然后利用生成式的 Transformer 架构从文本序列(和可选图像序列)中预测图像序列,最后使用图像生成技术(VAE、GAN等)对图像序列进行解码,得到最终生成图像。以 DALL-E (OpenAI)[1] 为例:
图像和文本通过各自编码器转化成序列,拼接到一起送入到 Transformer(这里用的是 GPT3)进行自回归序列生成。在推理阶段,使用预训练好的 CLIP 计算文本与生成图像的相似度,进行排序后得到最终生成图像的输出。与 DALL-E 类似,清华的 CogView 系列 [2, 3] 与百度的 ERNIE-ViLG [4] 同样使用 VQ-VAE + Transformer 的架构设计,谷歌的 Parti [5] 则将图像编解码器换成了 ViT-VQGAN。而微软的 NUWA-Infinity [6] 使用自回归方式可以做到无限视觉生成。
扩散模型
扩散模型(Diffusion Model)是一种图像生成技术,最近一年发展迅速,被喻为 GAN 的终结者。如图所示,扩散模型分为两阶段:(1)加噪:沿着扩散的马尔可夫链过程,逐渐向图像中添加随机噪声;(2)去噪:学习逆扩散过程恢复图像。常见变体有去噪扩散概率模型(DDPM)等。
采取扩散模型方式的多模态图像生成做法,主要是通过带条件引导的扩散模型学习文本特征到图像特征的映射,并对图像特征进行解码得到最终生成图像。以 DALL-E-2(OpenAI)[7] 举例,其虽然是 DALL-E 的续作,但是采取的技术路线与 DALL-E 截然不同,其原理更像是 GLIDE [8](有人称 GLIDE 为 DALL-E-1.5)。DALL-E-2 的整体架构如图所示:
DALL-E-2 使用 CLIP 对文本进行编码,并使用扩散模型学习一个先验(prior)过程,得到文本特征到图像特征的一个映射;最后学习一个反转 CLIP 的过程,将图像特征解码成最终的图像。相比于 DALL-E-2,谷歌的 Imagen [9] 则使用预训练好的 T5-XXL 来取代 CLIP 进行文本编码,然后使用超分扩散模型(U-Net 架构)增大图像尺寸,得到 1024️1024 高清的生成图像。
小结
自回归 Transformer 的引入与 CLIP 对比学习的方式,建立了文本和图像之间的桥梁;同时基于带条件引导的扩散模型,为生成多样性且高分辨率的图像奠定了基础。然而,评估图像生成质量往往带有主观因素,因此在这里比较 Transformer 自回归还是扩散模型的技术谁更胜一筹是一件困难的事情。并且像 DALL-E 系列、Imagen 以及 Parti 等模型在大规模数据集上训练,使用会存在伦理问题以及社会偏见,因此这些模型尚未开源。但是还是有很多爱好者在尝试使用其中的技术,期间也产生了很多可玩的应用。
AI 艺术创作
多模态图像生成技术的发展,为 AI 艺术创作提供了更多的可能。目前,被广泛使用的 AI 创作应用及工具包括 CLIPDraw,VQGAN-CLIP,Disco Diffusion,DALL-E Mini,Midjourney(需被邀请资格),DALL-E-2(需内测资格),Dream By Wombo(App),Meta ”Make-A-Scene”,Tiktok “AI 绿幕” 功能,Stable Diffusion [10],百度“一格”等。本文主要利用在艺术创作圈火爆的 Disco Diffusion 进行 AI 艺术创作。
Disco Diffusion 简介
Disco Diffusion [11] 是一个在 Github 上由众多技术爱好者共同维护的 AI 艺术创作应用,目前已经迭代了多个版本。从 Disco Diffusion 的名字不难看出,其采用的技术主要是用 CLIP 引导的扩散模型。Disco Diffusion 可以根据指定的文本描述(和可选底图)来生成艺术图像或视频。比如输入“花海”,模型就会随机产生一张噪声图像,通过 Diffusion 的去噪扩散过程一步步迭代,达到一定步数后就能渲染出一张美丽的图像。得益于扩散模型多样化的生成方式,每次运行程序都会得到不同的图像,这种“开盲盒”的体验着实让人着迷。
Disco Diffsion 存在问题
基于多模态图像生成模型 Disco Diffusion(DD)进行 AI 创作目前存在以下几个问题:
(1)生成图像质量参差不齐:根据生成任务的难易程度,粗略估算描述内容较难的生成任务良品率 20%~30%,描述内容较容易的生成任务良品率 60%~70%,大多数任务良品率在 30~40% 之间。
(2)生成速度较慢+内存消耗较大:以迭代 250 steps 生成一张 1280*768 图像为例,需要大约花费 6分钟,以及使用 V100 16G 显存。
(3)严重依赖专家经验:选取一组合适的描述词需要经过大量文本内容试错及权重设置、画家画风及艺术社区的了解以及文本修饰词的选取等;调整参数需要对 DD 包含的 CLIP 引导次数/饱和度/对比度/噪点/切割次数/内外切/梯度大小/对称/... 等概念深刻了解,同时要有一定的美术功底。众多的参数也意味着需要较强的专家经验才能获得一张还不错的生成图像。
技能储备
针对上述问题,我们做了一些数据与技术储备,同时 YY 了一些未来可能的应用。如下图所示:
- 针对第一个问题,我们从艺术创作社区爬取了近 2w 张 AI 生成的艺术作品,从生成图像的基础属性以及内容合理性进行三分类打标:质量好/质量一般/质量差,训练一个艺术作品质量评估模型。该模型能自动评估 AI 生成图像的质量并挑选出良品率高的图像,解决手动挑选高质量图像效率低的问题。
- 针对第二个问题,我们通过减少迭代次数+生成小尺寸图像,然后利用超分辨率算法 ESRGAN 进行高分辨率图像重建的方式,来提高 DD 的生成效率。该方法能达到与 DD 正常迭代生成的图像效果,生成效率与显存优化至少提升了一倍。
- 针对第三个问题,我们沉淀了一套底图预处理逻辑,包括色温色调调整/前背景调色/添加噪点等,能快速应用不同底图生成任务;同时,我们也积累了海量的文本提示词,进行了大量的 DD 调参试错,依赖专家经验生成个性化、多样化的高质量图像。
利用这些数据与技术储备,我们已经积累了手机/电脑壁纸、艺术姓/名、地标城市风格化、数字藏品等多模态图像生成应用方式。下面我们将展示具体的 AI 生成艺术作品。
AI 艺术作品
城市地标建筑风格化
通过输入文本描述与地标城市底图,生成不同风格的画作(动漫风格 / 赛博朋克风格 / 像素画风格):
(1) A building with anime style, by makoto shinkai and beeple, Trending on artstation.
(2) A building with cyberpunk style, by Gregory Grewdson, Trending on artstation.
(3) A building with pixel style, by Stefan Bogdanovi, Trending on artstation.
数字藏品
通过输入文本描述与底图,在底图上进行创作。
蚂蚁 Logo 系列(蚂蚁森林 / 蚂蚁小屋 / 蚂蚁飞船):
(1) A landscape with vegetation and lake, by RAHDS and beeple, Trending on artstation.
(2) Enchanted cottage on the edge of a cliff foreboding ominous fantasy landscape, by RAHDS and beeple, Trending on artstation.
(3) A spacecraft by RAHDS and beeple, Trending on artstation.
蚂蚁小鸡系列(小鸡之变形金刚 / 小鸡之海绵宝宝):
(1) Transformers with machine armor, by Alex Milne, Trending on artstation.
(2) Spongebob by RAHDS and beeple, Trending on artstation.
手机/电脑壁纸
通过输入文本描述,生成手机壁纸:
(1) The esoteric dreamscape by Dan Luvisi, trending on Artstation, matte painting vast landscape.
(2) Scattered terraces, winter, snow, by Makoto Shinka, trending on Artstation, 4k wallpaper.
(3) A beautiful cloudpunk painting of Atlantis arising from the abyss heralded by steampunk whales by Pixar rococo style, Artstation, volumetric lighting.
(4~8) A scenic view of the planets rotating through chantilly cream by Ernst Haeckel and Pixar trending on Artstation, 4k wallpaper.
通过输入文本描述,生成电脑壁纸:
(1) Fine, beautiful country fields, super wide angle, overlooking, morning by Makoto Shinkai.
(2) A beautiful painting of a starry night, shining its light across a sunflower sea by James Gurney, Trending on artstation.
(3) Fairy tale steam country by greg rutkowski and thomas kinkade Trending on artstation.
(4) A beautiful render of a magical building in a dreamy landscape by daniel merriam, soft lighting, 4k hd wallpaper, Trending on artstation and behance.
AI 艺术姓
通过输入文本描述与姓氏底图,生成不同风格的艺术姓:
(1) Large-scale military factories, mech testing machines, Semi-finished mechs, engineering vehicles, automation management, indicators, future, sci-fi, light effect, high-definition picture.
(2) A beautiful painting of mashroom, tree, artstation, Artstation, 4k hd wallpaper.
(3) A beautiful painting of sunflowers, fog, unreal engine, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Artstation, Andreas Rocha, Greg Rutkowski.
(4) A beautiful painting of the pavilion on the water presents a reflection, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.
(5) A beautiful landscape of a lush jungle with exotic plants and trees, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.
(6) Contra Force, Red fortress, spacecraft, by Ernst Haeckel and Pixar, wallpaper hd 4k, trending on artstation.
其他 AI 艺术创作应用
Stable Diffusion [10, 12] 展现了比 Disco Diffusion [11] 更加高效且稳定的创作能力,尤其是在“物”的刻画上更加突出。下图是笔者利用 Stable Diffusion,根据文本创作的 AI 绘画作品:
总结展望
本文主要介绍了近两年来多模态图像生成技术及相关的进展工作,并尝试使用多模态图像生成进行多种 AI 艺术创作。接下来,我们还将探索多模态图像生成技术在消费级 CPU 上运行的可能性,以及结合业务为 AI 智能创作赋能,并尝试更多如电影、动漫主题封面,游戏,元宇宙内容创作等更多相关应用。
使用多模态图像生成技术进行艺术创作只是 AI 自主生产内容(AIGC,AI generated content)的一种应用方式。得益于当前海量数据与预训练大模型的发展,AIGC 能够加速落地,为人类提供更多优质内容。或许,通用人工智能又迈进了一小步?
如果你对本文涉及到的技术或者应用感兴趣,欢迎共创交流。
参考文献
[1] Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.
[2] Ding M, Yang Z, Hong W, et al. Cogview: Mastering text-to-image generation via transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 19822-19835.
[3] Ding M, Zheng W, Hong W, et al. CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers[J]. arXiv preprint arXiv:2204.14217, 2022.
[4] Zhang H, Yin W, Fang Y, et al. ERNIE-ViLG: Unified generative pre-training for bidirectional vision-language generation[J]. arXiv preprint arXiv:2112.15283, 2021.
[5] Yu J, Xu Y, Koh J Y, et al. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation[J]. arXiv preprint arXiv:2206.10789, 2022.
[6] Wu C, Liang J, Hu X, et al. NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis[J]. arXiv preprint arXiv:2207.09814, 2022.
[7] Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with clip latents[J]. arXiv preprint arXiv:2204.06125, 2022.
[8] Nichol A, Dhariwal P, Ramesh A, et al. Glide: Towards photorealistic image generation and editing with text-guided diffusion models[J]. arXiv preprint arXiv:2112.10741, 2021.
[9] Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv:2205.11487, 2022.
[10] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.
[11] Github: https://github.com/alembics/disco-diffusion
[12] Github: https://github.com/CompVis/stable-diffusion
推荐阅读
大数据&AI实战派 第1期
《大数据&AI实战派》系列电子书由阿里云开发者社区与阿里灵杰共同打造,覆盖数据计算、数据分析、数据湖/湖仓一体、机器学习等多个领域,解读各技术领域基础原理,剖析行业实践案例。电子书第1期以《阿里云大数据知识图谱》为核心,通过阿里云大数据&AI产品能力介绍结合操作实践,培养大数据开发者从“生产-采集-存储-分析-开发-治理-价值体现”的技术能力。
点击这里,查看详情。
当 AI 邂逅绘画艺术,能迸发出怎样的火花?的更多相关文章
- AI通过了艺术创作图灵测试,你根本分不出来作者是不是人
各位geek朋友们,今年不用再看画了:近年来最大的艺术成就已经发生了. 这项艺术成就的诞生地,不是北京.新加坡.柏林郊区颜料四溅的画室中,不是威尼斯双年展上.请记住它出现的地点:美国新泽西州新布朗斯维 ...
- 当 SQL DELETE 邂逅 Table aliases,会擦出怎样的火花
开心一刻 晚上,女儿眼噙泪水躺在床上 女儿:你口口声声说爱我,说陪我,却天天想着骗我零花钱,你是我亲爹吗? 我:你想知道真相 女儿:想! 我:那你先给爸爸两百块钱! 环境准备 MySQL 不同版本 利 ...
- 小程序与WebRTC联姻能擦出怎样的火花?
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯视频云终端团队发表于云+社区专栏 腾讯视频云终端技术总监,rexchang(常青), 2008 年毕业加入腾讯,一直从事客户端研发 ...
- 当Spring Cloud Alibaba Sentinel碰上Spring Cloud Sleuth会擦出怎样的火花
前言 今年主要会做一个比较完整的微服务项目开源出来.目前已经开始了,刚兴趣的先Star一个吧. 项目:https://github.com/yinjihuan/kitty-cloud 基础框架:htt ...
- 当 RocketMQ 遇上 Serverless,会碰撞出怎样的火花?
作者 | 元毅 阿里巴巴高级开发工程师 阿里巴巴云原生公众号后台回复 Knative,免费下载<Knative 云原生应用开发指南>电子书! 想必大家都比较了解 RocketMQ 消息服 ...
- [置顶]
Android 关于BottomDialogSheet 与Layout擦出爱的火花?
今天上班做那个类似于ios拍照的那种效果图 就是个垂直布局然后里面textview+分割线+textview+button 当然也可以用button+分割线+button 方法有很多,选择适合自己的就 ...
- Android 关于BottomDialogSheet 与Layout擦出爱的火花?
今天上班做那个相似于ios拍照的那种效果图 就是个垂直布局然后里面textview+切割线+textview+button 当然也能够用button+切割线+button 方法有非常多,选择适合自己的 ...
- 当 .NET 5 遇上OpenTelemetry,会碰撞出怎样的火花?
OpenTelemetry 介绍 我在之前的几篇文章都介绍了 OpenTelemetry, 你可以在这里找到 OpenTelemetry - 云原生下可观测性的新标准 深入研究 .NET 5 的开放式 ...
- 我的大学,我的SPR机器人队
时间过的真快,我这个在协会呆了好多年的老油条今年都毕业了,在石油大学大学七年几乎三分之二的时间就是在协会度过的.实话说在北京这是我最亲切的地方,这里有我喜欢的各种设备,有亲爱的老师和一起奋斗的队友,在 ...
- Swift 并行编程现状和展望 - async/await 和参与者模式
这篇文章不是针对当前版本 Swift 3 的,而是对预计于 2018 年发布的 Swift 5 的一些特性的猜想.如果两年后我还记得这篇文章,可能会回来更新一波.在此之前,请当作一篇对现代语言并行编程 ...
随机推荐
- STM32芯片SPI接口接收数据左移一位问题定位总结
一 问题 最近在一个项目中,调试SPI的过程中遇到一个问题--接收数据整体向左移了一位(1bit).SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节( ...
- QT 使用QPixmap自定义光标 缩放图像模糊问题
QT中定义光标可以使用 Qt::CursorShape 预定义 的光标,也可以使用 QBitmap 和 QPixmap 自己绘制光标.QBitmap 只有黑白2色,QPixmap可以绘制彩色光标.使用 ...
- nginx和tomcat 反向代理 部署实例 直接运行
1 前言 1.1 目的 为了正确的部署"ngix+memcached"特编写此部署手册,使安装人员可以通过部署手册知道如何部署系统,也为需要安装该系统的安装人员正确.快速的部署本系 ...
- 专访虚拟人科技:如何利用 3DCAT 实时云渲染打造元宇宙空间
自古以来,人们对理想世界的探索从未停止,而最近元宇宙的热潮加速了这一步伐,带来了许多新的应用.作为元宇宙的关键入口,虚拟现实(VR)将成为连接虚拟和现实的桥梁.苹果发布的VISION PRO头戴设备将 ...
- drf(认证、权限、频率)
一. 认证组件 1. 流程 1. 写一个类,继承BaseAuthentication,重写authenticate,认证的逻辑写在里面. 认证通过,返回两个值,一个值最终给了包装以后的request对 ...
- 恶意软件开发(一)Reverse Shell
什么是Reverse Shell? 反向 Shell(Reverse Shell)是指远程攻击者在攻击成功后,通过建立一个反向连接,让受害者的机器连接到攻击者的机器上,从而达到控制受害者机器的目的.通 ...
- Commons-Collections1反序列化
JDK版本为jdk8u65 commons-collections版本为3.2.1 InvokerTransformer CC1的漏洞点在InvokerTransformer,InvokerTrans ...
- 记录--盘点 TypeScript 那些奇怪的符号
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 TypeScript是一种由微软开发的自由和开源的编程语言.它是JavaScript的一个超集,而且本质上向这个语言添加了可选的静态类型和 ...
- .NET Emit 入门教程:第二部分:构建动态程序集(追加构建静态程序集教程)
前言: 在本部分中,我们将深入探讨如何使用C# Emit 来创建动态程序集. 动态程序集是在运行时生成的,为我们提供了一种灵活.动态地构建和加载程序集的能力. 1. 程序集的概念 程序集是.NET中的 ...
- C# Image 图片缩放 截取
从大图中截取一部分图片 /// <summary> /// 从大图中截取一部分图片 /// </summary> /// <param name="fromIm ...