专栏名称: GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaLLM  ·  【博客转载】Row-Major VS ... ·  昨天  
51好读  ›  专栏  ›  GiantPandaLLM

【翻译】使用PyTorch FSDP最大化训练吞吐量

GiantPandaLLM  · 公众号  · 3D  · 2024-10-20 19:58

正文

请到「今天看啥」查看全文



cut_off += 1
return True
return False

apply_activation_checkpointing(
model,
checkpoint_wrapper_fn=non_reentrant_wrapper,
check_fn=selective_checkpointing,
)

吞吐量和 MFU、HFU 计算

虽然我们只将 7B 模型训练到 2T 个 token,但我们对其他模型大小进行了大量实验,以提供最佳配置选项。下表总结了两种基础设施的结果 — 一个是具有 128 个 GPU 和 400Gbps 节点间互连的 A100 集群,另一个是具有 96 个 GPU 和 800Gbps 节点间互连的 H100 集群。

模型大小 批量大小 activation checkpointing 吞吐量 tokens/秒/GPU (A100 80GB 和 400Gbps 互连) MFU % (A100 80GB) HFU % (A100 80GB) 吞吐量 tokens/秒/GPU (H100 80GB 和 800Gbps 互连) MFU % (H100 80GB) HFU % (H100 80GB)
7B 2 3700 0.57 0.57 7500 0.37 0.37
13B 2 选择性 1800 0.51 0.59 3800 0.35 0.40
34B 2 700 0.47 0.64 1550 0.32 0.44
70B 2 370 0.50 0.67 800 0.34 0.45






请到「今天看啥」查看全文