专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
宝玉xp  ·  //@想不出昵称的Rudy:赞同,因为AI, ... ·  2 天前  
AI产品阿颖  ·  Anthropic CPO:传统程序员正在谢幕 ·  2 天前  
新机器视觉  ·  移动机器人室内定位技术综述 ·  2 天前  
51好读  ›  专栏  ›  新智元

昇腾+鲲鹏联手上大招!华为爆改MoE训练,吞吐再飙升20%,内存省70%

新智元  · 公众号  · AI  · 2025-06-04 14:37

正文

请到「今天看啥」查看全文


· 「昂贵的」NPU内存永远不够用

为了扩展模型参数量以提高模型智能水平,MoE模型参数量动辄千亿甚至万亿。

加之训练过程中前向传播累积的海量激活值,让内存资源显得捉襟见肘。

如果太过挤压内存,还容易引发NPU内存溢出(OOM),造成训练中断。

因此,NPU内存优化是大规模MoE训练永恒的主题。

针对这些难题,华为给出了业界最完整的解决方案。

昇腾算子计算加速
训练吞吐飙升15%


毋庸置疑,只有更高算力的利用率,才能将AI系统的效用最大化。

除了并行策略、通算掩盖等框架层优化方法,硬件亲和算子优化,也是进一步获得潜在性能优化的新路径。

在MoE模型中,最「吃时间」的几个核心算子有:融合算子FlashAttention、基础算子MatMul,以及负责数据重排与反重排的Vector(矢量)算子。

这些算子,占据了总计算耗时75%以上。

从数学等价和昇腾硬件亲和角度出发,华为提出了 「瘦身术」、「均衡术」、「搬运术」 三大优化策略。

得益于这些方案,MoE模型计算冗余消除,数据流效率提升,同时计算单元间数据移动减少,充分发挥出昇腾的硬件能力。

在Pangu Ultra MoE 718B模型训练实践中, 三大算子加速实现整体训练 吞吐量 提升15%

FlashAttention「瘦身术」(RECT-FA)


针对FA算子,华为团队优化了计算顺序,进而消除了冗余计算,进一步让FA内部处理流水排布更紧密。

它能支持原生非对齐计算,直接处理Key/Query维度不匹配场景,省去填充与切片开销。

利用昇腾片上缓存原位累加技术,可基于数学等价计算消除旋转位置编码中复杂的拼接操作(如图1所示)。

图1:基于数学等价计算消除拼接开销原理

通过核间高效同步与缓存智能预搬运技术,实现FA内部计算步骤的高效流水线衔接,消除等待阻塞。

通过这三点优化,实现







请到「今天看啥」查看全文