专栏名称: 澎湃新闻
有内涵的时政新媒体
目录
相关文章推荐
新华社  ·  “苏超”,太有排面了! ·  2 天前  
新华网  ·  人,你为我排队了吗? ·  2 天前  
51好读  ›  专栏  ›  澎湃新闻

华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?

澎湃新闻  · 公众号  · 社会  · 2025-06-09 19:26

主要观点总结

华为团队针对昇腾算力集群提出了多项创新方案,包括超节点高可用、集群线性度提升、万卡集群训练快速恢复等。文章介绍了这些方案的具体内容和实现方式,以及它们如何支撑AI训练和推理任务。此外,还提到了故障感知和诊断系统、建模仿真和框架迁移等方面的内容。

关键观点总结

关键观点1: 超节点高可用

确保AI训练和推理的连续性,通过备用替身机制在系统故障时无缝接管任务,实现24小时不停工的智能工厂。

关键观点2: 集群线性度提升

通过精密任务分配算法和协同编排技术,让每台计算机像交响乐团成员一样各司其职,实现算力随规模增长而提升。

关键观点3: 万卡集群训练快速恢复

系统自动记录训练进度,在设备故障时快速定位问题并跳过故障部分,从最新存档点继续训练,避免从头开始。

关键观点4: 故障管理与感知诊断

实时监控系统和故障感知诊断技术,像设备医生一样持续监测并快速定位故障原因,启动修复机制。

关键观点5: 建模仿真技术

通过虚拟环境的数字化风洞建模仿真技术,提前发现计算系统的瓶颈和漏洞,优化训练性能。


正文

请到「今天看啥」查看全文



(1)系统层容错:通过超时代答欺骗OS+网络路由切换,防系统蓝屏,同时避免整个超节点级故障。


(2)业务层容错:租户无感知下,通过重试容忍网络闪断,将系统故障转为亚健康。


(3)运维层容错:主要构筑亚健康感知和优雅恢复技术,通过主动方式消减亚健康事件影响。


集群线性度:人多力量大的完美协作


理想情况下,100台计算机的算力应该是1台的100倍,1000台就是1000倍,这就是“线性度”。算力集群通过精密的任务分配算法,让每台计算机都像orchestra(交响乐团)的乐手一样各司其职,避免出现“三个和尚没水喝”的混乱。比如训练一个需要万亿次计算的模型时,万台计算机能像整齐划一地划桨的龙舟队,让算力随规模增长而几乎同步提升。


华为团队提出拓扑感知的协同编排技术TACO、网络级网存算融合技术NSF、拓扑感知的层次化集合通信技术NB、无侵入通信跨层测量与诊断技术AICT等四项关键技术,实现盘古模型训练线性度提升。


实验及理论分析结果显示,训练Pangu Ultra 135B稠密模型时,4K卡Atlas 800T A2集群相比256卡基线,线性度为96%。训练Pangu Ultra MoE 718B稀疏模型时,8K卡A2集群相比512卡基线,线性度95.05%;4K卡CloudMatrix集群相比256卡基线,线性度96.48%。


万卡集群训练快速恢复:带“存档功能”的训练师


当用上万个计算单元(俗称“万卡”)训练超大规模模型时,偶尔有几台机器“罢工”是难免的。这时系统会像游戏存档一样,自动记录最近的训练进度。一旦检测到故障,能快速定位出问题的计算单元,跳过故障部分,从最新的存档点继续训练,避免从头再来的巨大浪费。比如训练一个需要30天的模型,即使中间有设备故障,也能在几分钟内恢复进度,就像视频播放可以随时续播。


为了使万卡集群训练可以达到分钟级快恢,华为团队提出了以下多个创新:







请到「今天看啥」查看全文