算力平台:
Transformer2DModel
CompVis 提供的用于类似图像数据的 Transformer 模型,基于 Dosovitskiy 等人引入的 Vision Transformer。[Transformer2DModel
] 接受离散(向量嵌入的类别)或连续(实际嵌入)的输入。
当输入为 连续 时:
- 将输入投影并重塑为
(batch_size, sequence_length, feature_dimension)
。 - 以标准方式应用 Transformer 块。
- 重塑为图像。
当输入为 离散 时:
- 将输入(潜在像素的类别)转换为嵌入并应用位置嵌入。
- 以标准方式应用 Transformer 块。
- 预测未噪声图像的类别。
Transformer2DModel
[[autodoc]] Transformer2DModel
Transformer2DModelOutput
[[autodoc]] models.modeling_outputs.Transformer2DModelOutput