Skip to content

Transformer2DModel

CompVis 提供的用于类似图像数据的 Transformer 模型,基于 Dosovitskiy 等人引入的 Vision Transformer。[Transformer2DModel] 接受离散(向量嵌入的类别)或连续(实际嵌入)的输入。

当输入为 连续 时:

  1. 将输入投影并重塑为 (batch_size, sequence_length, feature_dimension)
  2. 以标准方式应用 Transformer 块。
  3. 重塑为图像。

当输入为 离散 时:

  1. 将输入(潜在像素的类别)转换为嵌入并应用位置嵌入。
  2. 以标准方式应用 Transformer 块。
  3. 预测未噪声图像的类别。

Transformer2DModel

[[autodoc]] Transformer2DModel

Transformer2DModelOutput

[[autodoc]] models.modeling_outputs.Transformer2DModelOutput