专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

昇腾+鲲鹏联手上大招！华为爆改MoE训练，吞吐再飙升20%，内存省70%

新智元 · 公众号 · AI · 2025-06-04 14:37

正文

请到「今天看啥」查看全文

· 「昂贵的」NPU内存永远不够用

为了扩展模型参数量以提高模型智能水平，MoE模型参数量动辄千亿甚至万亿。

加之训练过程中前向传播累积的海量激活值，让内存资源显得捉襟见肘。

如果太过挤压内存，还容易引发NPU内存溢出（OOM），造成训练中断。

因此，NPU内存优化是大规模MoE训练永恒的主题。

针对这些难题，华为给出了业界最完整的解决方案。

昇腾算子计算加速

训练吞吐飙升15%

毋庸置疑，只有更高算力的利用率，才能将AI系统的效用最大化。

除了并行策略、通算掩盖等框架层优化方法，硬件亲和算子优化，也是进一步获得潜在性能优化的新路径。

在MoE模型中，最「吃时间」的几个核心算子有：融合算子FlashAttention、基础算子MatMul，以及负责数据重排与反重排的Vector（矢量）算子。

这些算子，占据了总计算耗时75%以上。

从数学等价和昇腾硬件亲和角度出发，华为提出了 「瘦身术」、「均衡术」、「搬运术」 三大优化策略。

得益于这些方案，MoE模型计算冗余消除，数据流效率提升，同时计算单元间数据移动减少，充分发挥出昇腾的硬件能力。

在Pangu Ultra MoE 718B模型训练实践中， 三大算子加速实现整体训练 吞吐量 提升15% 。

FlashAttention「瘦身术」（RECT-FA）

针对FA算子，华为团队优化了计算顺序，进而消除了冗余计算，进一步让FA内部处理流水排布更紧密。

它能支持原生非对齐计算，直接处理Key/Query维度不匹配场景，省去填充与切片开销。

利用昇腾片上缓存原位累加技术，可基于数学等价计算消除旋转位置编码中复杂的拼接操作（如图1所示）。

图1：基于数学等价计算消除拼接开销原理

通过核间高效同步与缓存智能预搬运技术，实现FA内部计算步骤的高效流水线衔接，消除等待阻塞。

通过这三点优化，实现

请到「今天看啥」查看全文

推荐文章

黄建同学 · RAG 的下一个阶段：带推理能力的 Agentic RAG1.-20250609190116

21 小时前

新智元 · 顶会0篇，一夜RLHF爆文刷屏！他靠写作逆袭AI圈，院士都说好

2 天前

爱可可-爱生活 · 【[90星]torchvista：用一行代码在Jupyter等笔-20250607170548

2 天前

爱可可-爱生活 · [LG]《Replay Can Provably Increas-20250607062806

3 天前

爱可可-爱生活 · [LG]《MesaNet: Sequence Modeling -20250607055637

3 天前

潮人 · 娱乐 | 霉霉迎接27岁生日，闺蜜军团纷纷献上祝福！

8 年前

遇见漫画 · 人性黑暗漫《宝石》

8 年前

练瑜伽 · 一个瑜伽动作，你最长能坚持多久？我可以8个小时...

8 年前

21财闻汇 · 留给你的时间不多了！比北京房价更意外的事将连续发生.......（刷爆朋友圈）

8 年前

詹姆士的厨房 · 这道圆子锅带你回归料理的本质——简单快乐优雅！|鸡肉圆子锅

8 年前