算力平台:
CogView3Plus
CogView3: 通过中继扩散实现更精细、更快速的文本到图像生成,由清华大学和智谱AI的Wendi Zheng、Jiayan Teng、Zhuoyi Yang、Weihan Wang、Jidong Chen、Xiaotao Gu、Yuxiao Dong、Ming Ding、Jie Tang共同撰写。
论文的摘要如下:
近年来,文本到图像生成系统的进步主要由扩散模型推动。然而,单阶段文本到图像扩散模型在计算效率和图像细节的精细化方面仍面临挑战。为了解决这一问题,我们提出了CogView3,这是一个创新的级联框架,旨在提升文本到图像扩散的性能。CogView3是首个在文本到图像生成领域实现中继扩散的模型,通过首先生成低分辨率图像,然后应用基于中继的超分辨率来执行任务。这种方法不仅产生了具有竞争力的文本到图像输出,而且大大降低了训练和推理成本。我们的实验结果表明,CogView3在人类评估中优于当前最先进的开源文本到图像扩散模型SDXL,表现提升了77.0%,同时仅需要大约一半的推理时间。CogView3的蒸馏变体在仅使用SDXL十分之一的推理时间的情况下,实现了可比拟的性能。
此管道由zRzRzRzRzRzRzR贡献。原始代码库可以在这里找到。原始权重可以在hf.co/THUDM下找到。
CogView3PlusPipeline
[[autodoc]] CogView3PlusPipeline
- all
- call
CogView3PipelineOutput
[[autodoc]] pipelines.cogview3.pipeline_output.CogView3PipelineOutput