Skip to content

量化

量化技术专注于用更少的信息来表示数据,同时尽量不损失太多精度。这通常意味着将数据类型转换为用更少的位来表示相同的信息。例如,如果你的模型权重存储为 32 位浮点数,并且它们被量化为 16 位浮点数,这将使模型大小减半,从而更容易存储并减少内存使用。较低的精度还可以加快推理速度,因为它用更少的位进行计算需要更少的时间。

何时使用什么?

一旦 Diffusers 拥有多个量化后端,本节将进行扩展。目前,我们只支持 bitsandbytes此资源 提供了不同量化技术的优缺点的良好概述。