GLIGEN(基于语言到图像生成的接地模型)
GLIGEN模型由来自威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员和工程师创建。[StableDiffusionGLIGENPipeline
]和[StableDiffusionGLIGENTextImagePipeline
]可以根据接地输入生成逼真的图像。除了文本和边界框外,如果提供了输入图像,[StableDiffusionGLIGENTextImagePipeline
]可以在由边界框定义的区域内插入由文本描述的对象。否则,它将根据标题/提示生成图像,并在由边界框定义的区域内插入由文本描述的对象。该模型在COCO2014D和COCO2014CD数据集上进行训练,并使用冻结的CLIP ViT-L/14文本编码器来根据接地输入进行条件化。
来自论文的摘要如下:
大规模文本到图像扩散模型取得了惊人的进展。然而,现状是仅使用文本输入,这可能会阻碍可控性。在这项工作中,我们提出了GLIGEN,即基于语言到图像生成的接地模型,这是一种新颖的方法,通过使现有预训练的文本到图像扩散模型也能够根据接地输入进行条件化,从而扩展了其功能。为了保留预训练模型的广泛概念知识,我们冻结了其所有权重,并通过门控机制将接地信息注入到新的可训练层中。我们的模型实现了带有标题和边界框条件输入的开放世界接地文本到图像生成,并且接地能力很好地泛化到新的空间配置和概念。GLIGEN在COCO和LVIS上的零样本性能大大优于现有的监督布局到图像基线。
[StableDiffusionGLIGENPipeline
]由Nikhil Gajendrakumar贡献,[StableDiffusionGLIGENTextImagePipeline
]由Nguyễn Công Tú Anh贡献。
StableDiffusionGLIGENPipeline
[[autodoc]] StableDiffusionGLIGENPipeline - all - call - enable_vae_slicing - disable_vae_slicing - enable_vae_tiling - disable_vae_tiling - enable_model_cpu_offload - prepare_latents - enable_fuser
StableDiffusionGLIGENTextImagePipeline
[[autodoc]] StableDiffusionGLIGENTextImagePipeline - all - call - enable_vae_slicing - disable_vae_slicing - enable_vae_tiling - disable_vae_tiling - enable_model_cpu_offload - prepare_latents - enable_fuser
StableDiffusionPipelineOutput
[[autodoc]] pipelines.stable_diffusion.StableDiffusionPipelineOutput