专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
新浪科技  ·  【#AI真的大幅提高工作效率了吗#?或让人大 ... ·  10 小时前  
新浪科技  ·  【#雷军透露小米复盘##雷军三问小米#】@雷 ... ·  10 小时前  
新浪科技  ·  【#比亚迪公布5月销量# ... ·  昨天  
51好读  ›  专栏  ›  雷峰网

Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练

雷峰网  · 公众号  · 科技媒体  · 2025-05-29 19:44

正文

请到「今天看啥」查看全文


Ultra MoE 架构的时候,充分考虑昇腾硬件特性, 昇腾 NPU 平台上,融合计算、通信和内存等多维度指标,构建 了大规模系统模拟器,并系统性地 探索约 一万个不同的 MoE 结构组合,最终搜索出一套在训练与推理吞吐上均达最优的架构方案
Pangu Ultra MoE 是一个超大规模、高稀疏比的架构,同时也 包含 MLA MTP 先进架构 和特有的 DSSN 稳定性架构 EP loss 负载优化 。下面是 Pangu Ultra MoE 的主要的架构和训练 特性:
超大规模和超高稀疏比 采用 256 个路由专家,每个 token 激活 8 个专家 ,模型总参数量 7 18 B ,激活量 39B
MLA 注意力机制: 引入 MLA Multi-head Latent Attention ),有效压缩 KV Cache 空间,缓解推理阶段的内存带宽瓶颈,优于传统 GQA 方案。
MTP 多头 扩展 :采用单头 MTP 进行训练,后续复用 MTP 参数扩展至多头结构,实现多 Token 投机推理,加速整体推理过程。
Droples s 训练: 采用 Dropless 训练可以避免 Drop&Pad 训推不 一致问题, 并且 提升训练的数据效率。
RL 训练 :采用 迭代难例挖掘 多能力 项均衡的奖励函数,并参考 GRPO 算法 ,提升了模型的训练效率与最终推理性能。
以下 Pangu Ultra MoE 昇腾亲和设计考虑:
隐藏维度贴合硬件: 设置 7680 维隐藏层,精准匹配 DaVinci 芯片的 16 × 16 MatMul 单元,充分发挥 Cube 核心的计算潜力。
层数 亲和流水线并行 设置 61 Transformer 结构 并预留 额外 MTP 层空间 ,保障计算负载均衡的 PP/ VPP 流水线调度,减少 pipeline 气泡,提升整体并行效率。
专家规模 符合 规律 路由专家数量设为 2^8  = 256 ,在 TP × EP 并行下提升 All-to-All 通信效率,有效加速分布式训练。
Pangu Ultra MoE 预训练 阶段在 6k 10k NPU 上进行,全流程采用 dropless 训练模式。 预训练 阶段进行了长序列扩展,最终模型具备 128k 长序列能力。在后训练阶段, Pangu






请到「今天看啥」查看全文