正文
cut_off +=
1
return
True
return
False
apply_activation_checkpointing(
model,
checkpoint_wrapper_fn=non_reentrant_wrapper,
check_fn=selective_checkpointing,
)
吞吐量和 MFU、HFU 计算
虽然我们只将 7B 模型训练到 2T 个 token,但我们对其他模型大小进行了大量实验,以提供最佳配置选项。下表总结了两种基础设施的结果 — 一个是具有 128 个 GPU 和 400Gbps 节点间互连的 A100 集群,另一个是具有 96 个 GPU 和 800Gbps 节点间互连的 H100 集群。
模型大小
|
批量大小
|
activation checkpointing
|
吞吐量 tokens/秒/GPU (A100 80GB 和 400Gbps 互连)
|
MFU % (A100 80GB)
|
HFU % (A100 80GB)
|
吞吐量 tokens/秒/GPU (H100 80GB 和 800Gbps 互连)
|
MFU % (H100 80GB)
|
HFU % (H100 80GB)
|
7B
|
2
|
否
|
3700
|
0.57
|
0.57
|
7500
|
0.37
|
0.37
|
13B
|
2
|
选择性
|
1800
|
0.51
|
0.59
|
3800
|
0.35
|
0.40
|
34B
|
2
|
是
|
700
|
0.47
|
0.64
|
1550
|
0.32
|
0.44
|
70B
|
2
|
是
|
370
|
0.50
|
0.67
|
800
|
0.34
|
0.45
|