专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
新浪科技  ·  【新高!#银行股赢麻了还能上车么#?】 ... ·  12 小时前  
新浪科技  ·  【#阿维塔总裁陈卓表示原创设计很难# ... ·  昨天  
36氪  ·  WAVES ... ·  2 天前  
51好读  ›  专栏  ›  雷峰网

不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力

雷峰网  · 公众号  · 科技媒体  · 2025-05-30 17:48

正文

请到「今天看啥」查看全文


值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。
具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习后训练框架的关键技术。
此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。

01

不用GPU的“炼”准万亿大模型方法

在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术痛点。
整体来看,在当前的MoE预训练和强化学习后训练过程中所存在的挑战可以归结为六点:
并行策略配置困难 :面对数据并行、张量并行、专家并行、流水线并行和序列并行等多种策略的组合选择,加上稀疏激活导致的负载不平衡因素,很难通过人工经验找到最优的并行配置方案。
All-to-All通信瓶颈 :专家并行架构需要进行大规模的token路由交换,这不仅占用大量网络带宽资源,还会造成计算资源长时间空闲等待,严重影响整体训练效率。
系统负载分布不均 :从注意力机制中序列长度的差异,到专家激活频率的不平衡,再到流水线并行中各阶段的负载分配问题,这些多层次的不均衡现象拖累了整个集群的性能表现。
算子调度开销过大 :动态路由机制引入了大量高频率的小规模算子操作,增加了系统调度负担,降低了核心矩阵计算的比重,从而显著影响NPU的有效利用率。
训练流程管理复杂 :强化学习后训练涉及多个模型实例和多种训练任务,包括MoE大模型的训练和推理阶段,整个流程的复杂性给资源分配和系统调度带来巨大挑战。
大规模扩展受限 强化学习过程中, 训练与推理阶段的参数重新映射机制,以及各计算任务间复杂的数据通信流程,成为制约后训练大规模部署的主要瓶颈。
即使挑战如此之多,华为在这段技术报告中依旧是给出了一套完整的端到端全流程解法。

第一招:提升训练集群利用率

超大规模训练集群的高效部署是提升预训练系统性能的关键所在。
为此,华为团队通过并行策略智能选择、计算通信深度融合、全局动态负载平衡等技术创新,显著提升了集群整体训练效率。
首先是 建模仿真驱动的智能并行优化。
华为团队采用如下图所示的系统建模仿真框架,将原本需要大量人工试错的并行策略选择问题转化为精确的自动化搜索过程。
基于昇腾800T A2训练集群的硬件特性和约束条件,为Pangu Ultra MoE 718B模型确定了最优部署配置:
16路流水线并行(Pipeline Parallelism)进行模型层间切分
8路张量并行(Tensor Parallelism)专门处理注意力计算
32路专家并行(Expert Parallelism)实现专家模块分布式计算
2路虚拟流水线并行(Virtual Pipeline Parallelism)提升流水线效率
最终实现了与昇腾架构深度适配的最优化部署方案。
训练系统建模仿真流程






请到「今天看啥」查看全文