执行和延迟任务

当你运行你的常规脚本时，指令是按顺序执行的。使用 Accelerate 将你的脚本部署到多个 GPU 上时会引入一个复杂性：虽然每个进程都会按顺序执行所有指令，但有些进程可能会比其他进程更快。

你可能需要等待所有进程都到达某个特定点之后再执行某个指令。例如，在确保每个进程都完成训练之前，你不应该保存模型，而且在所有模型权重都加载完毕之前，你也不希望继续训练。为此，只需在代码中写入以下行：

accelerator.wait_for_everyone()

此指令将阻塞所有先到达的进程，直到所有其他进程都到达该点（如果你的脚本仅在一个 GPU 或 CPU 上运行，这将不会有任何作用）。

下面列出了几个使用此工具的示例情况：

下载数据集

在下载数据集时，你应该先在主进程中下载，然后加载缓存的数据集。

python

with accelerator.main_process_first():
    datasets = load_dataset("glue", "mrpc")

在内部，这与调用以下内容相同：

python

# First do something on the main process
if accelerator.is_main_process:
    datasets = load_dataset("glue", "mrpc")
else:
    accelerator.wait_for_everyone()

# And then send it to the rest of them
if not accelerator.is_main_process:
    datasets = load_dataset("glue", "mrpc")
else:
    accelerator.wait_for_everyone()

保存 `state_dict`

在保存模型的 state_dict 时，由于通常只在主进程中保存一个文件，因此你应该指定这一点：

python

if accelerator.is_main_process:
    model = accelerator.unwrap_model(model)
    torch.save(model.state_dict(), "weights.pth")

加载 `state_dict`

在将 state_dict 加载到模型、优化器或调度器时，你应该等待所有工作进程都加载完权重后再继续训练。

python

with accelerator.main_process_first():
    state = torch.load("weights.pth")
    model.load_state_dict(state)

应用多工作进程的 CPU 操作

在多个工作进程上应用 map() 操作（例如分词）应该首先在主进程中进行，然后再传播到每个工作进程。

python

datasets = load_dataset("glue", "mrpc")

with accelerator.main_process_first():
    tokenized_datasets = datasets.map(
        tokenize_function,
        batched=True,
        remove_columns=["idx", "sentence1", "sentence2"],
    )

应用检查，如提前停止

为了使用由特定进程设置的标志进行检查，应使用 set_trigger 和 check_trigger API。有用的示例包括使用提前停止和监控损失（因为每个进程的损失略有不同）。

当你的条件满足时，调用 [Accelerator.set_trigger]，在检查任何进程是否满足该条件时，调用 [Accelerator.check_trigger]：

python

for (x,y) in data_loader:
    logits = model(x)
    loss = loss_func(logits, y)
    # Assume `should_do_early_stopping` is a custom defined function that returns a conditional
    if should_do_early_stopping(loss):
        accelerator.set_trigger()

    # Later in the training script when we need to check for the breakpoint
    if accelerator.check_trigger():
        break

执行和延迟任务 ​

下载数据集 ​

保存 state_dict ​

加载 state_dict ​

应用多工作进程的 CPU 操作 ​

应用检查，如提前停止 ​

执行和延迟任务

下载数据集

保存 `state_dict`

加载 `state_dict`

应用多工作进程的 CPU 操作

应用检查，如提前停止