算力平台:
UVit2DModel
U-ViT 模型是一种基于视觉变换器(ViT)的 UNet。该模型结合了 ViT 的元素(将所有输入(如时间、条件和噪声图像块)视为令牌)和 UNet 的元素(浅层和深层之间的长跳跃连接)。跳跃连接对于预测像素级特征非常重要。在最终输出之前应用了一个额外的 3x3 卷积块,以提高图像质量。
论文的摘要如下:
目前,在高分辨率图像的像素空间中应用扩散模型是困难的。相反,现有方法侧重于在较低维空间(潜在扩散)中的扩散,或者具有多个超分辨率级别的生成,称为级联。缺点是这些方法为扩散框架增加了额外的复杂性。本文旨在改进高分辨率图像的去噪扩散,同时尽可能保持模型的简单性。本文围绕以下研究问题展开:如何在高分辨率图像上训练标准的去噪扩散模型,并仍然获得与这些替代方法相当的性能?主要发现有四点:1)噪声计划应针对高分辨率图像进行调整,2)仅缩放架构的特定部分就足够了,3)应在架构的特定位置添加 dropout,4)下采样是避免高分辨率特征图的有效策略。结合这些简单而有效的技术,我们在不使用采样修饰符的情况下,在 ImageNet 上的扩散模型中实现了图像生成的最先进水平。
UVit2DModel
[[autodoc]] UVit2DModel
UVit2DConvEmbed
[[autodoc]] models.unets.uvit_2d.UVit2DConvEmbed
UVitBlock
[[autodoc]] models.unets.uvit_2d.UVitBlock
ConvNextBlock
[[autodoc]] models.unets.uvit_2d.ConvNextBlock
ConvMlmLayer
[[autodoc]] models.unets.uvit_2d.ConvMlmLayer