Stable Diffusion XL Turbo

[[open-in-colab]]

SDXL Turbo 是一种对抗性时间蒸馏的 Stable Diffusion XL (SDXL) 模型，能够在仅一步推理中运行。

本指南将向你展示如何使用 SDXL-Turbo 进行文本到图像和图像到图像的生成。

在开始之前，请确保你已安装以下库：

# uncomment to install the necessary libraries in Colab
#!pip install -q diffusers transformers accelerate

加载模型检查点

模型权重可能存储在 Hub 上或本地上的单独子文件夹中，在这种情况下，你应该使用 [~StableDiffusionXLPipeline.from_pretrained] 方法：

from diffusers import AutoPipelineForText2Image
import torch

pipeline = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipeline = pipeline.to("cuda")

你也可以使用 [~StableDiffusionXLPipeline.from_single_file] 方法从 Hub 或本地加载存储在单个文件格式（.ckpt 或 .safetensors）中的模型检查点。对于这种加载方法，你需要设置 timestep_spacing="trailing"（随意尝试其他调度器配置值以获得更好的结果）：

from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
import torch

pipeline = StableDiffusionXLPipeline.from_single_file(
    "https://huggingface.co/stabilityai/sdxl-turbo/blob/main/sd_xl_turbo_1.0_fp16.safetensors",
    torch_dtype=torch.float16, variant="fp16")
pipeline = pipeline.to("cuda")
pipeline.scheduler = EulerAncestralDiscreteScheduler.from_config(pipeline.scheduler.config, timestep_spacing="trailing")

文本转图像

对于文本转图像，请传递一个文本提示。默认情况下，SDXL Turbo 会生成一个 512x512 的图像，并且该分辨率会提供最佳效果。你可以尝试将 height 和 width 参数设置为 768x768 或 1024x1024，但这样做会导致质量下降。

确保将 guidance_scale 设置为 0.0 以禁用，因为模型是在没有它的情况下训练的。单个推理步骤足以生成高质量图像。将步骤数增加到 2、3 或 4 应该会提高图像质量。

from diffusers import AutoPipelineForText2Image
import torch

pipeline_text2image = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipeline_text2image = pipeline_text2image.to("cuda")

prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."

image = pipeline_text2image(prompt=prompt, guidance_scale=0.0, num_inference_steps=1).images[0]
image

图像转图像

对于图像转图像生成，请确保 num_inference_steps * strength 大于或等于 1。图像转图像管道将运行 int(num_inference_steps * strength) 步，例如，在下面的示例中，0.5 * 2.0 = 1 步。

from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image, make_image_grid

# use from_pipe to avoid consuming additional memory when loading a checkpoint
pipeline_image2image = AutoPipelineForImage2Image.from_pipe(pipeline_text2image).to("cuda")

init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png")
init_image = init_image.resize((512, 512))

prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"

image = pipeline_image2image(prompt, image=init_image, strength=0.5, guidance_scale=0.0, num_inference_steps=2).images[0]
make_image_grid([init_image, image], rows=1, cols=2)

Image-to-image generation sample using SDXL Turbo

进一步加速 SDXL Turbo

如果你使用的是 PyTorch 2.0 或更高版本，请编译 UNet。第一次推理运行会非常慢，但后续运行会快得多。

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

使用默认 VAE 时，请将其保留在 float32 中，以避免在每次生成前后进行代价高昂的 dtype 转换。你只需要在第一次生成之前执行一次：

pipe.upcast_vae()

作为替代方案，你也可以使用社区成员 @madebyollin 创建的 16 位 VAE，该 VAE 不需要向上转换为 float32。

Stable Diffusion XL Turbo ​

加载模型检查点 ​

文本转图像 ​

图像转图像 ​

进一步加速 SDXL Turbo ​

实用工具

Stable Diffusion XL Turbo

加载模型检查点

文本转图像

图像转图像

进一步加速 SDXL Turbo