开始

Diffusers

快速导览

有效且高效的扩散

安装

教程

概述

理解管道、模型和调度器

自动管道

训练扩散模型

加载 LoRAs 用于推理

加速文本到图像扩散模型的推理

加载管道和适配器

加载管道

加载社区管道和组件

加载调度器和模型

模型文件和布局

加载适配器

将文件推送到 Hub

生成式任务

无条件图像生成

文本到图像

图像到图像

图像修复

文本或图像到视频

文本引导的深度到图像生成

推理技术

概述

分布式推理

合并 LoRAs

调度器功能

管道回调

可复现的管道

控制图像质量

提示技巧

页面结构

使用 DDPO 进行强化学习训练

你可以使用 🤗 TRL 库和 🤗 Diffusers 通过强化学习在奖励函数上微调 Stable Diffusion。这可以通过 Black 等人使用强化学习训练扩散模型中介绍的去噪扩散策略优化 (DDPO) 算法来实现，该算法在 🤗 TRL 中使用 [~trl.DDPOTrainer] 实现。

有关更多信息，请查看 [~trl.DDPOTrainer] API 参考和使用 TRL 通过 DDPO 微调 Stable Diffusion 模型博客文章。

实用工具

小坤计算宝小坤二维码小坤哈希小坤密码器小坤文本对比

使用 DDPO 进行强化学习训练 ​

实用工具

使用 DDPO 进行强化学习训练