Diffusers库的初识及使用

diffusers库的目标是：

将扩散模型（diffusion models）集中到一个单一且长期维护的项目中
以公众可访问的方式复现高影响力的机器学习系统，如DALLE、Imagen等
让开发人员可以很容易地使用API进行模型训练或者使用现有模型进行推理

diffusers的核心分成三个组件：

Pipelines: 高层类，以一种用户友好的方式，基于流行的扩散模型快速生成样本
Models：训练新扩散模型的流行架构，如UNet
Schedulers：推理场景下基于噪声生成图像或训练场景下基于噪声生成带噪图像的各种技术

diffusers的安装

pip install diffusers

先看推理

导入Pipeline，from_pretrained()加载模型，可以是本地模型，或从the Hugging Face Hub自动下载。

from diffusers import StableDiffusionPipeline

image_pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4")

# 加载本地模型：

# image_pipe = StableDiffusionPipeline.from_pretrained("./models/Stablediffusion/stable-diffusion-v1-4")

image_pipe.to("cuda")

prompt = "a photograph of an astronaut riding a horse"

pipe_out = image_pipe(prompt)

image = pipe_out.images[0]

# you can save the image with

# image.save(f"astronaut_rides_horse.png")

我们查看下image_pipe的内容：

StableDiffusionPipeline {

  "_class_name": "StableDiffusionPipeline",

  "_diffusers_version": "0.10.2",

  "feature_extractor": [

    "transformers",

    "CLIPFeatureExtractor"

  ],

  "requires_safety_checker": true,

  "safety_checker": [

    "stable_diffusion",

    "StableDiffusionSafetyChecker"

  ],

  "scheduler": [

    "diffusers",

    "PNDMScheduler"

  ],

  "text_encoder": [

    "transformers",

    "CLIPTextModel"

  ],

  "tokenizer": [

    "transformers",

    "CLIPTokenizer"

  ],

  "unet": [

    "diffusers",

    "UNet2DConditionModel"

  ],

  "vae": [

    "diffusers",

    "AutoencoderKL"

  ]

}

查看Images的结构：

StableDiffusionPipelineOutput(

images=[<PIL.Image.Image image mode=RGB size=512x512 at 0x1A14BDD7730>],

nsfw_content_detected=[False])

由此，可以看到pipe_out的包含两部分，第一部分就是生成的图片列表，如果只有一张图片，则pipe_out.images[0]即可取出目标图像。

如果我们要一次生成多张图像呢？只需要修改prompt的list长度即可，代码如下。

from diffusers import StableDiffusionPipeline

image_pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4")

image_pipe.to("cuda")

prompt = ["a photograph of an astronaut riding a horse"] * 3

out_images = image_pipe(prompt).images

for i, out_image in enumerate(out_images):

    out_image.save("astronaut_rides_horse" + str(i) + ".png")

在使用image_pipe生成图像时，默认是float32精度的，若本地现在不足，可能会报Out of memory的错误，此时，可以通过加载float16精度的模型来解决。

Note: If you are limited by GPU memory and have less than 10GB of GPU RAM available, please make sure to load the StableDiffusionPipeline in float16 precision instead of the default float32 precision as done above.

You can do so by loading the weights from the fp16 branch and by telling diffusers to expect the weights to be in float16 precision:
image_pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", revision="fp16", torch_dtype=torch.float16)

对于每个PipeLine都有一些特定的配置，如StableDiffusionPipeline除了必要的prompt参数，还可以配置如下参数：

num_inference_steps: int = 50
guidance_scale: float = 7.5
generator: Optional[torch.Generator] = None
等等

示例：如果你想要每次得到的结果均一致，可以设置每次的种子都一样

generator = torch.Generator("cuda").manual_seed(1024)

prompt = ["a photograph of an astronaut riding a horse"] * 3

out_images = image_pipe(prompt, generator=generator).images

再看训练

Diffusers库的初识及使用的更多相关文章

ECharts（Enterprise Charts 商业产品图表库）初识
一.简介大数据时代,重新定义图表的时候到了,所以随之ECharts就随之出现了. ECharts(Enterprise Charts 商业产品图表库) 是基于Canvas的,纯Javascript ...
2_认识STM32库
2_认识STM32库 STM32库是由ST公司针对STM32提供的函数接口API,开发者可以调用这些函数接口来配置STM32的寄存器,使得开发人员得以脱离最底层的寄存器操作,开发快速. 库是架设在寄存 ...
python之路--MySQL数据库初识
一 . MySQL安装 # 下载MySQL地址 https://dev.mysql.com/downloads # 要选稳定的,不要选最新的,稳定的就是半年以上没有出现过bug 现在5.6.43为绝大 ...
python--MySQL数据库初识
一 . MySQL安装 # 下载MySQL地址 https://dev.mysql.com/downloads # 要选稳定的,不要选最新的,稳定的就是半年以上没有出现过bug 现在5.6.43为绝大 ...
浅谈 jQuery 核心架构设计
jQuery对于大家而言并不陌生,因此关于它是什么以及它的作用,在这里我就不多言了,而本篇文章的目的是想通过对源码简单的分析来讨论 jQuery 的核心架构设计,以及jQuery 是如何利用javas ...
浅析 jQuery 内部架构设计
jQuery 对于大家而言并不陌生,因此关于它是什么以及它的作用,在这里我就不多言了,而本篇文章的目的是想通过对源码简单的分析来讨论 jQuery 的内部架构设计,以及 jQuery 是如何利用Jav ...
boost的下载和安装(windows版)
1 简介 boost是一个准C++标准库,相当于STL的延续和扩充,它的设计理念和STL比较接近,都是利用泛型让复用达到最大化. boost主要包含以下几个大类: 字符串及文本处理.容器.迭代器(it ...
第9章初识STM32固件库
第9章初识STM32固件库全套200集视频教程和1000页PDF教程请到秉火论坛下载:www.firebbs.cn 野火视频教程优酷观看网址:http://i.youku.com/fire ...
第9章初识STM32固件库—零死角玩转STM32-F429系列
第9章初识STM32固件库全套200集视频教程和1000页PDF教程请到秉火论坛下载:www.firebbs.cn 野火视频教程优酷观看网址:http://i.youku.com/fire ...
第9章初识HAL固件库
本章参考资料:<STM32F76xxx参考手册>.<STM32F7xx规格书>.<Cortex-M3权威指南>, STM32 HAL库帮助文档:<STM32F ...

随机推荐

oracle第二步创建表空间、用户、授权
Windows+r→键入sqlplus,输入已安装好的oracle数据库超级管理员账号密码登录.显示: 成功. 创建表空间: 创建用户并默认表空间: 授权该创建用户对数据库的操作: 代码: SQL&g ...
day28-jQuery01
jQuery01 参考文档1:jQuery API 中文文档 | jQuery API 中文在线手册 | jquery api 下载 | jquery api chm (cuishifeng.cn) ...
MYSQL快速安装整理
参考教程:https://www.cnblogs.com/brad93/p/16650780.html [检查是否已安装过] find / -name mysql [快速安装开始] groupadd ...
【Spark】Day05-内核解析：组件、流程、部署、运行模式、通讯架构、任务调度（Stage、task级）、两种Shuffle机制、内存管理、核心组件
一.内核概述内核:核心组件的运行机制.任务调度.内存管理.运行原理 1.核心组件 (1)Driver驱动器节点:执行main方法,将程序转化为作业job,在executor中调度任务task,跟踪并 ...
hook 无限debugger（猿人学第十四题）
猿人学第十四题检测太多了,debugger fiddler替换无法实现.置空也不行.推荐使用hook Function原生的构造 var func_ = Function.prototype.c ...
痞子衡嵌入式：存储器大厂Micron的NOR Flash芯片特殊丝印设计(FBGA代码)
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家讲的是存储器大厂Micron的NOR Flash芯片特殊丝印设计(FBGA代码). 痞子衡之前写过一篇文章 <J-Flash在Micron ...
运维、监控、AIOps的几个重要观点
监控是整个运维乃至整个产品生命周期中最重要的一环,通过配置合理的告警机制,采集准确的监控指标,来提前或者尽早发现问题,解决问题,进而保证产品的稳定,提升用户的体验.『分布式实验室』特约记者艾尔斯兰(下 ...
2022年7月15日，第四组，周鹏，JAVA认识的第三天，算法的第一天(╥╯^╰╥)(╥╯^╰╥)
算了,已经没有力气去创作些什么了, 8种排序方法我只会4种,剩下的以后再补. 发一个逻辑题吧: 一个村落,有50户人,在这些人中存在着n个红眼病. 在保证每人每天最少见一面的情况下,有如下规则: 1, ...
Proxyless Mesh 在 Dubbo 中的实践
背景随着 Dubbo 3.1 的 release,Dubbo 在云原生的路上又迈出了重要的一步.在这个版本中添加了 Proxyless Mesh 的新特性,Dubbo Proxyless Mesh ...
Isaac Sim 机器人仿真器介绍、安装与 Docker [1]
前言与参考此文书写于: January 6, 2023, 更新于 January 6, 2023 :可能会随着时间的变化此教程会有过时概念哦 Isaac Sim 相关参考链接: 官方文档地址官方 ...