Skip to content

文本到图像

Stable Diffusion 模型由来自 CompVisStability AIRunwayLAION 的研究人员和工程师创建。[StableDiffusionPipeline] 能够根据任何文本输入生成逼真的图像。它是在 LAION-5B 数据集的一个子集中的 512x512 图像上训练的。该模型使用冻结的 CLIP ViT-L/14 文本编码器来根据文本提示条件化模型。凭借其 860M UNet 和 123M 文本编码器,该模型相对轻量,可以在消费级 GPU 上运行。潜在扩散是建立在 Stable Diffusion 之上的研究。它由 Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser 和 Björn Ommer 在 High-Resolution Image Synthesis with Latent Diffusion Models 中提出。

论文的摘要如下:

通过将图像生成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据及其他领域的合成结果上达到了最先进的水平。此外,它们的公式允许在不重新训练的情况下控制图像生成过程的引导机制。然而,由于这些模型通常直接在像素空间中操作,优化强大的 DMs 通常需要数百个 GPU 天数,并且由于顺序评估,推理成本很高。为了在有限的计算资源上训练 DM 的同时保留其质量和灵活性,我们在强大的预训练自编码器的潜在空间中应用它们。与之前的工作相比,在这种表示上训练扩散模型首次能够在复杂性降低和细节保留之间达到近乎最优的点,大大提高了视觉保真度。通过在模型架构中引入交叉注意力层,我们将扩散模型转变为强大的、灵活的生成器,适用于文本或边界框等一般条件输入,并且以卷积方式实现高分辨率合成成为可能。我们的潜在扩散模型(LDMs)在图像修复方面达到了新的最先进水平,并在各种任务中表现出色,包括无条件图像生成、语义场景合成和超分辨率,同时与基于像素的 DMs 相比显著减少了计算需求。代码可在 https://github.com/CompVis/latent-diffusion 获取。

StableDiffusionPipeline

[[autodoc]] StableDiffusionPipeline - all - call - enable_attention_slicing - disable_attention_slicing - enable_vae_slicing - disable_vae_slicing - enable_xformers_memory_efficient_attention - disable_xformers_memory_efficient_attention - enable_vae_tiling - disable_vae_tiling - load_textual_inversion - from_single_file - load_lora_weights - save_lora_weights

StableDiffusionPipelineOutput

[[autodoc]] pipelines.stable_diffusion.StableDiffusionPipelineOutput

FlaxStableDiffusionPipeline

[[autodoc]] FlaxStableDiffusionPipeline - all - call

FlaxStableDiffusionPipelineOutput

[[autodoc]] pipelines.stable_diffusion.FlaxStableDiffusionPipelineOutput