算力平台:
潜在扩散模型
潜在扩散模型在 使用潜在扩散模型进行高分辨率图像合成 中由 Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser 和 Björn Ommer 提出。
论文摘要:
通过将图像形成过程分解为一系列去噪自动编码器的应用,扩散模型 (DM) 在图像数据及其他方面取得了最先进的合成结果。此外,它们的公式允许使用引导机制来控制图像生成过程,而无需重新训练。然而,由于这些模型通常直接在像素空间中运行,因此强大 DM 的优化通常会消耗数百个 GPU 天,并且由于顺序评估,推理成本很高。为了在保持其质量和灵活性的同时,在有限的计算资源上进行 DM 训练,我们在强大的预训练自动编码器的潜在空间中应用它们。与之前的工作相比,在这样的表示上训练扩散模型首次实现了复杂性降低和细节保留之间的最佳平衡点,从而极大地提高了视觉保真度。通过在模型架构中引入交叉注意力层,我们将扩散模型转变为强大的灵活生成器,用于文本或边界框等通用条件输入,并且可以在卷积方式下实现高分辨率合成。我们的潜在扩散模型 (LDM) 在图像修复方面取得了新的最先进水平,并在各种任务中取得了极具竞争力的性能,包括无条件图像生成、语义场景合成和超分辨率,同时与基于像素的 DM 相比,显着降低了计算需求。
原始代码库可以在 CompVis/latent-diffusion 中找到。
LDMTextToImagePipeline
[[autodoc]] LDMTextToImagePipeline - all - call
LDMSuperResolutionPipeline
[[autodoc]] LDMSuperResolutionPipeline - all - call
ImagePipelineOutput
[[autodoc]] pipelines.ImagePipelineOutput