算力平台:
VQModel
VQ-VAE 模型由 Aaron van den Oord、Oriol Vinyals 和 Koray Kavukcuoglu 在论文 Neural Discrete Representation Learning 中提出。该模型用于 🤗 Diffusers 中将潜在表示解码为图像。与 [AutoencoderKL
] 不同,[VQModel
] 在量化的潜在空间中工作。
论文的摘要如下:
在没有监督的情况下学习有用的表示仍然是机器学习中的一个关键挑战。在本文中,我们提出了一种简单而强大的生成模型,该模型学习这种离散表示。我们的模型,即向量量化变分自编码器(VQ-VAE),与 VAE 在两个关键方面有所不同:编码器网络输出离散的,而不是连续的代码;并且先验是学习的,而不是静态的。为了学习离散的潜在表示,我们结合了向量量化(VQ)的思想。使用 VQ 方法使模型能够规避“后验崩溃”问题——当潜在变量与强大的自回归解码器配对时,通常会忽略潜在变量——这在 VAE 框架中通常会观察到。将这些表示与自回归先验配对,模型可以生成高质量的图像、视频和语音,以及进行高质量的说话人转换和音素的非监督学习,进一步证明了学习到的表示的实用性。
VQModel
[[autodoc]] VQModel
VQEncoderOutput
[[autodoc]] models.autoencoders.vq_model.VQEncoderOutput