算力平台:
PriorTransformer
Prior Transformer 最初由 Ramesh 等人在 Hierarchical Text-Conditional Image Generation with CLIP Latents 中提出。它用于从 CLIP 文本嵌入预测 CLIP 图像嵌入;图像嵌入通过去噪扩散过程进行预测。
论文的摘要如下:
像 CLIP 这样的对比模型已被证明能够学习捕捉语义和风格的图像鲁棒表示。为了利用这些表示进行图像生成,我们提出了一种两阶段模型:一个先验模型,根据文本描述生成 CLIP 图像嵌入,以及一个解码器,根据图像嵌入生成图像。我们表明,显式生成图像表示可以提高图像多样性,同时几乎不影响照片真实感和描述相似性。我们基于图像表示的解码器还可以生成保留图像语义和风格的变体,同时改变图像表示中不存在的非本质细节。此外,CLIP 的联合嵌入空间使得语言引导的图像操作能够以零样本的方式进行。我们使用扩散模型作为解码器,并对先验模型进行了自回归和扩散模型的实验,发现后者在计算上更高效,并生成更高质量的样本。
PriorTransformer
[[autodoc]] PriorTransformer
PriorTransformerOutput
[[autodoc]] models.transformers.prior_transformer.PriorTransformerOutput