VQDiffusionScheduler
VQDiffusionScheduler
将 transformer 模型的输出转换为前一个扩散时间步的无噪声图像样本。它由 Shuyang Gu、Dong Chen、Jianmin Bao、Fang Wen、Bo Zhang、Dongdong Chen、Lu Yuan 和 Baining Guo 在 Vector Quantized Diffusion Model for Text-to-Image Synthesis 中提出。
论文的摘要如下:
我们提出了用于文本到图像生成的向量量化扩散(VQ-Diffusion)模型。该方法基于向量量化变分自编码器(VQ-VAE),其潜在空间由最近开发的去噪扩散概率模型(DDPM)的条件变体建模。我们发现这种潜在空间方法非常适合文本到图像生成任务,因为它不仅消除了现有方法的单向偏差,还允许我们采用掩码和替换扩散策略来避免错误的累积,这是现有方法的一个严重问题。我们的实验表明,与具有相似参数数量的传统自回归(AR)模型相比,VQ-Diffusion 生成的文本到图像结果显著更好。与之前的基于 GAN 的文本到图像方法相比,我们的 VQ-Diffusion 可以处理更复杂的场景,并大幅提高合成图像的质量。最后,我们展示了通过重参数化可以使我们的方法中的图像生成计算变得非常高效。使用传统的 AR 方法,文本到图像生成时间随输出图像分辨率线性增加,因此即使是正常大小的图像也非常耗时。VQ-Diffusion 使我们能够在质量和速度之间实现更好的权衡。我们的实验表明,经过重参数化的 VQ-Diffusion 模型比传统 AR 方法快十五倍,同时实现了更好的图像质量。
VQDiffusionScheduler
[[autodoc]] VQDiffusionScheduler
VQDiffusionSchedulerOutput
[[autodoc]] schedulers.scheduling_vq_diffusion.VQDiffusionSchedulerOutput