专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
新浪科技  ·  【#王自如回应4个为什么##王自如回忆15年 ... ·  21 小时前  
新浪科技  ·  【#Switch2首日更新开始推送#,启用所 ... ·  2 天前  
51好读  ›  专栏  ›  雷峰网

华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一

雷峰网  · 公众号  · 科技媒体  · 2025-05-28 20:06

主要观点总结

华为盘古团队提出了分组混合专家模型(MoGE)架构,解决了传统MoE模型专家激活频次高度不均衡的问题。新架构通过分组均衡路由技术实现跨设备的计算负载均衡,并在昇腾大规模集群上进行了高效训练。盘古Pro MoE大模型在多个领域取得了优异成绩,相比其他大模型,它以更小的参数量达到了相当或更好的性能。此外,该模型还解决了专家负载不均衡的问题,提高了硬件资源利用率和推理速度。该模型的成功应用标志着大模型从“参数军备竞赛”转向“实效主义”,为AI产业应用领域开辟了新的蓝海。

关键观点总结

关键观点1: 分组混合专家模型(MoGE)架构的提出

解决了传统MoE模型专家激活频次高度不均衡的问题,通过分组均衡路由技术实现跨设备的计算负载均衡。

关键观点2: 盘古Pro MoE大模型的性能优势

在多个领域取得了优异成绩,相比其他大模型,以更小的参数量达到了相当或更好的性能。

关键观点3: 解决专家负载不均衡问题

通过分组均衡路由技术和辅助损失函数解决专家负载不均衡问题,提高了硬件资源利用率和推理速度。

关键观点4: 行业价值

盘古Pro MoE的诞生标志着大模型从“参数军备竞赛”转向“实效主义”,为AI产业应用领域开辟了新的蓝海。


正文

请到「今天看啥」查看全文


英文技术报告:https://arxiv.org/pdf/2505.21411
图源:https://www.superclueai.com/
昇腾原生的 MoGE 大模型 架构 ,训练效率更优
路由专家被均匀划分为 𝑀 不重叠的组,其中每个组内的专家将 被分配到同一个设备上。对于每个输入特征, MoGE 首先通过全局 softmax 路由器计算所有专家 的门控得分。接着,在每个专家组内,根据这些得分选出 𝐾 ′ = 𝐾 / 𝑀 得分最高的专家(图中为 从每组 4 专家中选取 2 )。未被选中的专家,其对应权重被置为 0。最终 MoGE 的输出由被 激活专家的输出和共享专家的输出加权求和得到。

01

序言

混合专家模型已成为大型语言模型领域的革新范式 —— 近年来,模型与数据集规模呈 指数级 增长,而 MoE 通过稀疏激活机制(仅针对每个 token 激活部分专家子集),在维持 高表 达能力的同时降低计算开销,使其在大规模应用中极具吸引力。
然而,传统 MoE 架构面临的核心挑战是专家负载不均衡:当部分专家因过度专业化或 token 分配过载时,其他专家则处于低效利用状态。由于专家通常分布于多设备并行执行, MoE 模块的整体时延往往由承载最多 token 的设备决定,这种不均衡会严重损害计算效率与系统吞吐量。
针对这一行业难题,华为盘古团队(以下简称团队)推出 全新盘古 Pro MoE 大模型
该模型创新性提出分组均衡路由技术,通过硬约束的负载均衡策略,确保每个 token 在预定义的专家分组内激活等量专家,这样就天然的确保了跨设备的专家负载均衡;结合仿真优化算法,从层数、宽度、专家数等多维度优化资源分配,构建出昇腾亲和的盘古 Pro MoE 架构。同时,深度融合昇腾 300I Duo/800I A2 硬件加速架构的并行计算特性与 算子级编译 优化技术,实现从算法设计到系统落地的全栈创新。
实验表明,盘古 Pro MoE 在同等 算力条件 下推理延迟更低,和业界同规模大模型相比,通用和复杂推理综合精度领先,为超大规模模型的工业化部署提供新范式。
接下来将系统性解析盘古 Pro MoE 的核心技术原理与工程实现路径。






请到「今天看啥」查看全文