Transformer2DModel

CompVis 提供的用于类似图像数据的 Transformer 模型，基于 Dosovitskiy 等人引入的 Vision Transformer。[Transformer2DModel] 接受离散（向量嵌入的类别）或连续（实际嵌入）的输入。

当输入为连续时：

将输入投影并重塑为 (batch_size, sequence_length, feature_dimension)。
以标准方式应用 Transformer 块。
重塑为图像。

当输入为离散时：

将输入（潜在像素的类别）转换为嵌入并应用位置嵌入。
以标准方式应用 Transformer 块。
预测未噪声图像的类别。

Transformer2DModel

[[autodoc]] Transformer2DModel

Transformer2DModelOutput

[[autodoc]] models.modeling_outputs.Transformer2DModelOutput