Skip to content

文本-到-(RGB, 深度)

LDM3D 是由 Gabriela Ben Melech Stan、Diana Wofk、Scottie Fox、Alex Redden、Will Saxton、Jean Yu、Estelle Aflalo、Shao-Yen Tseng、Fabio Nonato、Matthias Muller 和 Vasudev Lal 在 LDM3D: 用于 3D 的潜在扩散模型 中提出的。LDM3D 可以根据给定的文本提示生成图像和深度图,而现有的文本到图像扩散模型(如 Stable Diffusion)仅生成图像。LDM3D 在几乎相同数量的参数下,实现了创建一个可以压缩 RGB 图像和深度图的潜在空间。

有两个检查点可供使用:

  • ldm3d-original。论文中使用的原始检查点
  • ldm3d-4c。LDM3D 的新版本,使用 4 通道输入而不是 6 通道输入,并在更高分辨率的图像上进行了微调。

论文的摘要如下:

本研究论文提出了一种用于 3D 的潜在扩散模型 (LDM3D),该模型可以根据给定的文本提示生成图像和深度图数据,使用户能够从文本提示生成 RGBD 图像。LDM3D 模型在一个包含 RGB 图像、深度图和标题的元组数据集上进行了微调,并通过广泛的实验进行了验证。我们还开发了一个名为 DepthFusion 的应用程序,该应用程序使用生成的 RGB 图像和深度图来创建沉浸式和交互式的 360 度视图体验,使用 TouchDesigner。这项技术有可能改变从娱乐和游戏到建筑和设计等广泛的行业。总的来说,本文对生成式 AI 和计算机视觉领域做出了重要贡献,并展示了 LDM3D 和 DepthFusion 在内容创建和数字体验方面的革命性潜力。可以在 此链接 找到一个总结该方法的短视频。

StableDiffusionLDM3DPipeline

[[autodoc]] pipelines.stable_diffusion_ldm3d.pipeline_stable_diffusion_ldm3d.StableDiffusionLDM3DPipeline - all - call

LDM3DPipelineOutput

[[autodoc]] pipelines.stable_diffusion_ldm3d.pipeline_stable_diffusion_ldm3d.LDM3DPipelineOutput - all - call

超分辨率

LDM3D-VR 是 LDM3D 的扩展版本。

论文的摘要如下: 潜在扩散模型在视觉输出的创建和操作方面已被证明是当前最先进的。然而,据我们所知,RGB 与深度图的联合生成仍然有限。我们引入了 LDM3D-VR,这是一套针对虚拟现实开发的扩散模型,包括 LDM3D-pano 和 LDM3D-SR。这些模型分别基于文本提示生成全景 RGBD 和将低分辨率输入上采样为高分辨率 RGBD。我们的模型在包含全景/高分辨率 RGB 图像、深度图和标题的数据集上从现有的预训练模型进行了微调。这两个模型在与现有相关方法的比较中进行了评估。

有两个检查点可供使用:

  • ldm3d-pano。此检查点支持生成全景图像,需要使用 StableDiffusionLDM3DPipeline 管道。
  • ldm3d-sr。此检查点支持 RGB 和深度图像的上采样。可以在原始 LDM3D 管道之后使用 StableDiffusionUpscaleLDM3DPipeline 进行级联。