算力平台:
量化
量化技术通过使用低精度数据类型(如 8 位整数 (int8))来表示权重和激活,从而降低内存和计算成本。这使得你可以加载通常无法放入内存的大型模型,并加速推理。Diffusers 支持使用 bitsandbytes 进行 8 位和 4 位量化。
Transformers 中不支持的量化技术可以通过 [DiffusersQuantizer
] 类添加。
BitsAndBytesConfig
[[autodoc]] BitsAndBytesConfig
DiffusersQuantizer
[[autodoc]] quantizers.base.DiffusersQuantizer