人像生成模型

1.模型理论基础

扩散模型（Diffusion Model）：

1.1 Diffusion Model 原理

首先，Denoise Model 需要一个起始的噪声图像作为输入。这个噪声图像可以是完全随机的，也可以是一些特定的模式（如 高斯分布）或者形状。 - 接下来，随着 denoise 的不断进行，图像的细节信息会逐渐浮现出来。这个过程有点像冲洗照片，每次冲洗都会逐渐浮现出照片中的细节和色彩。denoise 的次数越多，生成的图像就越清晰、越细腻。 - 最后，Denoise Model 会根据用户的需求输出最终的图像。

Denoise 过程中，用的都是同一个 Denoise Model。为了让 Diffusion Model 知道当前是在哪个 Step 输入的图片，实际操作过程中会把 Step 数字作为输入传递给模型。这样，模型就能够根据当前的 Step 来判断图像的噪声程度，从而进行更加精细的去噪操作。

1.2 Denoise Model 的内部

实际上，Denoise Model 内部做了一些非常有趣的事情来生成高质量的图像。首先，由于让模型直接预测出去噪后的图片是比较困难的事情，所以 Denoise Model 做了两件事情： - 首先，它会把噪音图片和当前的 Step 一起输入到一个叫做 Noise Predicter 的模块中，这个模块会预测出当前图片的噪音。 - 接下来，模型会对初步的去噪图片进行修正，以达到去噪效果。具体来说，模型会通过像素值减去噪音的方式来进一步去除噪音。

1.3 如何训练 Noise Predictor？

要训练 Noise Predictor，我们需要有 Ground truth 的噪音作为 label 进行有监督的学习。那么，各个 Step 的 Ground truth 从哪里来呢？

我们可以通过随机产生噪音的方式来模拟扩散过程（Diffusion Process）。具体来说，我们从原始图像开始，不断地加入随机噪音，得到一系列加噪后的图像。这些加噪后的图像和当前的 Step 就是 Denoise Model 的输入，而加入的噪音则是 Ground truth。我们可以用这些 Ground truth 数据来训练 Noise Predictor，以便它能够更好地预测出当前图像的噪音。

1.4 Text-to-Image

有些同学问了：我见到的 Diffusion Model是Text-to-image Generator，基于文本生成图片。为什么你这个没有文本的输入呢？

确实，有些 Diffusion Model 是基于文本生成图片的，这意味着我们可以将文本作为输入来生成图片。

每一个 step，文本都可以作为 Denoise Model 的输入，这样可以让模型知道当前应该生成什么样的图片。

具体来说，我们可以将文本输入到 Noise Predictor 中，以便预测出噪音来去噪。

Stable Diffusion扩散模型的更多相关文章

一文详解扩散模型：DDPM
作者:京东零售刘岩扩散模型讲解前沿人工智能生成内容(AI Generated Content,AIGC)近年来成为了非常前沿的一个研究方向,生成模型目前有四个流派,分别是生成对抗网络(Gene ...
使用 LoRA 进行 Stable Diffusion 的高效参数微调
LoRA: Low-Rank Adaptation of Large Language Models 是微软研究员引入的一项新技术,主要用于处理大模型微调的问题.目前超过数十亿以上参数的具有强能力的大 ...
Hugging Face 每周速递: 扩散模型课程完成中文翻译，有个据说可以教 ChatGPT 看图的模型开源了
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...
最新版本 Stable Diffusion 开源 AI 绘画工具之使用篇
目录界面参数采样器文生图(txt2img) 图生图(img2img) 模型下载界面参数在使用 Stable Diffusion 开源 AI 绘画之前,需要了解一下绘画的界面和一些参数的意义 ...
在英特尔 CPU 上加速 Stable Diffusion 推理
前一段时间,我们向大家介绍了最新一代的英特尔至强 CPU (代号 Sapphire Rapids),包括其用于加速深度学习的新硬件特性,以及如何使用它们来加速自然语言 transformer 模型的 ...
AI绘画提示词创作指南：DALL·E 2、Midjourney和 Stable Diffusion最全大比拼 ⛵
作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 自然语言处理实战系列:https://www.showmeai.tech ...
从 GPT2 到 Stable Diffusion：Elixir 社区迎来了 Hugging Face
上周,Elixir 社区向大家宣布,Elixir 语言社区新增从 GPT2 到 Stable Diffusion 的一系列神经网络模型.这些模型得以实现归功于刚刚发布的 Bumblebee 库.Bum ...
Stable Diffusion魔法入门
写在前面本文为资料整合,没有原创内容,方便自己查找和学习, 花费了一晚上把sd安装好,又花了大半天了解sd周边的知识,终于体会到为啥这些生成式AI被称为魔法了,魔法使用前要吟唱类比到AI上不就是那些 ...
Diffusers中基于Stable Diffusion的哪些图像操作
目录辅助函数 Text-To-Image Image-To-Image In-painting Upscale Instruct-Pix2Pix 基于Stable Diffusion的哪些图像操作们 ...
Stable Diffusion 关键词tag语法教程
提示词 Prompt Prompt 是输入到文生图模型的文字,不同的 Prompt 对于生成的图像质量有较大的影响支持的语言Stable Diffusion, NovelAI等模型支持的输入语言为英 ...

随机推荐

Kali开机启动模式修改
kali Linux安装之后默认启动图形化界面,为了减轻系统负担,可以修改启动进入字符界面. 具体步骤如下: 1.打开引导配置文件 vim /etc/default/grub 2.修改GRUB_CMD ...
论文解读（KD-UDA）《Joint Progressive Knowledge Distillation and Unsupervised Domain Adaptation》
Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ] 论文信息论文标题:Joint Progressive Knowledge Distillation and Unsuperv ...
ChatGPT大师班从入门到精通视频教程完整版
本内容收集于:AIGC从入门到精通教程汇总课程截图课程目录 01.先导课:工具篇----ChatGPT平替解决方案及汉化教程.mp4 02.第1课:AIGC时代的到来.mp4 03.第2课:认识C ...
分布式环境下Session共享问题解决和原理讲解
1.分布式环境下Session共享问题: 2.几种解决方法 3.通过后端统一存储方法在实际项目中问题的体现: 当session的作用域只限于auth.gulimall.com时,在auth.gulim ...
java类序列化和反序列化
参考:https://zhuanlan.zhihu.com/p/144535172?utm_id=0 https://blog.csdn.net/qq_42617455/article/details ...
记一次 .NET 某仪器测量系统 CPU爆高分析
一:背景 1. 讲故事最近也挺奇怪,看到了两起 CPU 爆高的案例,且诱因也是一致的,觉得有一些代表性,合并分享出来帮助大家来避坑吧,闲话不多说,直接上 windbg 分析. 二:WinDbg 分析 ...
聊聊基于Alink库的决策树模型算法实现
示例代码及相关内容来源于<Alink权威指南(Java版)> 概述决策树模型再现了人们做决策的过程,该过程由一系列的判断构成,后面的判断基于前面的判断结果,不断缩小范围,最终推出结果. ...
深入解析 C++ 中的 ostringstream、istringstream 和 stringstream 用法
引言: 在 C++ 中,ostringstream.istringstream 和 stringstream 是三个非常有用的字符串流类,它们允许我们以流的方式处理字符串数据.本文将深入探讨这三个类的 ...
android studio error
Invalid method receiver.: Invalid method receiver.java.lang.IllegalStateException: Invalid method re ...
MySQL快速导入千万条数据(3)
目录一.测试环境二.命令行导入方式三.LOAD DATA导入方式四.结论接上文,本次在较高性能的X86物理机上,做真实生产环境的大数据量导入测试. 一.测试环境 ■ CPU是24核,每核2线 ...

Stable Diffusion扩散模型