BLIP-Diffusion
BLIP-Diffusion 是在 BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing 中提出的。它支持零样本主题驱动生成和控制引导的零样本生成。
论文的摘要如下:
主题驱动的文本到图像生成模型根据文本提示创建输入主题的新表现形式。现有模型存在长时间微调和对主题保真度保持困难的问题。为了克服这些限制,我们引入了 BLIP-Diffusion,这是一种新的支持多模态控制的主题驱动图像生成模型,它消耗主题图像和文本提示作为输入。与其他主题驱动生成模型不同,BLIP-Diffusion 引入了一种新的多模态编码器,该编码器经过预训练以提供主题表示。我们首先按照 BLIP-2 预训练多模态编码器,以生成与文本对齐的视觉表示。然后,我们设计了一个主题表示学习任务,使扩散模型能够利用这种视觉表示并生成新的主题表现形式。与 DreamBooth 等先前方法相比,我们的模型支持零样本主题驱动生成,并且对于定制主题的微调速度提高了 20 倍。我们还展示了 BLIP-Diffusion 可以灵活地与现有技术(如 ControlNet 和 prompt-to-prompt)结合,以实现新颖的主题驱动生成和编辑应用。项目页面在 this https URL。
原始代码库可以在 salesforce/LAVIS 找到。你可以在 hf.co/SalesForce 组织下找到官方的 BLIP-Diffusion 检查点。
BlipDiffusionPipeline
和 BlipDiffusionControlNetPipeline
由 ayushtues
贡献。
BlipDiffusionPipeline
[[autodoc]] BlipDiffusionPipeline - all - call
BlipDiffusionControlNetPipeline
[[autodoc]] BlipDiffusionControlNetPipeline - all - call