华为昇腾万卡集群揭秘：如何驯服AI算力「巨兽」？

澎湃新闻 · 公众号 · 社会 · 2025-06-09 19:26

主要观点总结

华为团队针对昇腾算力集群提出了多项创新方案，包括超节点高可用、集群线性度提升、万卡集群训练快速恢复等。文章介绍了这些方案的具体内容和实现方式，以及它们如何支撑AI训练和推理任务。此外，还提到了故障感知和诊断系统、建模仿真和框架迁移等方面的内容。

关键观点总结

关键观点1: 超节点高可用

确保AI训练和推理的连续性，通过备用替身机制在系统故障时无缝接管任务，实现24小时不停工的智能工厂。

关键观点2: 集群线性度提升

通过精密任务分配算法和协同编排技术，让每台计算机像交响乐团成员一样各司其职，实现算力随规模增长而提升。

关键观点3: 万卡集群训练快速恢复

系统自动记录训练进度，在设备故障时快速定位问题并跳过故障部分，从最新存档点继续训练，避免从头开始。

关键观点4: 故障管理与感知诊断

实时监控系统和故障感知诊断技术，像设备医生一样持续监测并快速定位故障原因，启动修复机制。

关键观点5: 建模仿真技术

通过虚拟环境的数字化风洞建模仿真技术，提前发现计算系统的瓶颈和漏洞，优化训练性能。

正文

请到「今天看啥」查看全文

(1)系统层容错：通过超时代答欺骗OS+网络路由切换，防系统蓝屏，同时避免整个超节点级故障。

(2)业务层容错：租户无感知下，通过重试容忍网络闪断，将系统故障转为亚健康。

(3)运维层容错：主要构筑亚健康感知和优雅恢复技术，通过主动方式消减亚健康事件影响。

集群线性度：人多力量大的完美协作

理想情况下，100台计算机的算力应该是1台的100倍，1000台就是1000倍，这就是“线性度”。算力集群通过精密的任务分配算法，让每台计算机都像orchestra（交响乐团）的乐手一样各司其职，避免出现“三个和尚没水喝”的混乱。比如训练一个需要万亿次计算的模型时，万台计算机能像整齐划一地划桨的龙舟队，让算力随规模增长而几乎同步提升。

华为团队提出拓扑感知的协同编排技术TACO、网络级网存算融合技术NSF、拓扑感知的层次化集合通信技术NB、无侵入通信跨层测量与诊断技术AICT等四项关键技术，实现盘古模型训练线性度提升。

实验及理论分析结果显示，训练Pangu Ultra 135B稠密模型时，4K卡Atlas 800T A2集群相比256卡基线，线性度为96%。训练Pangu Ultra MoE 718B稀疏模型时，8K卡A2集群相比512卡基线，线性度95.05%；4K卡CloudMatrix集群相比256卡基线，线性度96.48%。

万卡集群训练快速恢复：带“存档功能”的训练师

当用上万个计算单元（俗称“万卡”）训练超大规模模型时，偶尔有几台机器“罢工”是难免的。这时系统会像游戏存档一样，自动记录最近的训练进度。一旦检测到故障，能快速定位出问题的计算单元，跳过故障部分，从最新的存档点继续训练，避免从头再来的巨大浪费。比如训练一个需要30天的模型，即使中间有设备故障，也能在几分钟内恢复进度，就像视频播放可以随时续播。

为了使万卡集群训练可以达到分钟级快恢，华为团队提出了以下多个创新：