Skip to content

使用 DDPO 进行强化学习训练

你可以使用 🤗 TRL 库和 🤗 Diffusers 通过强化学习在奖励函数上微调 Stable Diffusion。这可以通过 Black 等人 使用强化学习训练扩散模型 中介绍的去噪扩散策略优化 (DDPO) 算法来实现,该算法在 🤗 TRL 中使用 [~trl.DDPOTrainer] 实现。

有关更多信息,请查看 [~trl.DDPOTrainer] API 参考和 使用 TRL 通过 DDPO 微调 Stable Diffusion 模型 博客文章。