华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一

雷峰网 · 公众号 · 科技媒体 · 2025-05-28 20:06

主要观点总结

华为盘古团队提出了分组混合专家模型（MoGE）架构，解决了传统MoE模型专家激活频次高度不均衡的问题。新架构通过分组均衡路由技术实现跨设备的计算负载均衡，并在昇腾大规模集群上进行了高效训练。盘古Pro MoE大模型在多个领域取得了优异成绩，相比其他大模型，它以更小的参数量达到了相当或更好的性能。此外，该模型还解决了专家负载不均衡的问题，提高了硬件资源利用率和推理速度。该模型的成功应用标志着大模型从“参数军备竞赛”转向“实效主义”，为AI产业应用领域开辟了新的蓝海。

关键观点总结

关键观点1: 分组混合专家模型（MoGE）架构的提出

解决了传统MoE模型专家激活频次高度不均衡的问题，通过分组均衡路由技术实现跨设备的计算负载均衡。

关键观点2: 盘古Pro MoE大模型的性能优势

在多个领域取得了优异成绩，相比其他大模型，以更小的参数量达到了相当或更好的性能。

关键观点3: 解决专家负载不均衡问题

通过分组均衡路由技术和辅助损失函数解决专家负载不均衡问题，提高了硬件资源利用率和推理速度。

关键观点4: 行业价值

盘古Pro MoE的诞生标志着大模型从“参数军备竞赛”转向“实效主义”，为AI产业应用领域开辟了新的蓝海。

正文

请到「今天看啥」查看全文

英文技术报告：https://arxiv.org/pdf/2505.21411

图源：https://www.superclueai.com/

昇腾原生的 MoGE 大模型架构，训练效率更优

路由专家被均匀划分为 𝑀 个不重叠的组，其中每个组内的专家将被分配到同一个设备上。对于每个输入特征， MoGE 首先通过全局 softmax 路由器计算所有专家的门控得分。接着，在每个专家组内，根据这些得分选出 𝐾 ′ = 𝐾 / 𝑀 个得分最高的专家（图中为从每组 4 个专家中选取 2 个）。未被选中的专家，其对应权重被置为 0。最终 MoGE 的输出由被激活专家的输出和共享专家的输出加权求和得到。

序言

混合专家模型已成为大型语言模型领域的革新范式 —— 近年来，模型与数据集规模呈指数级增长，而 MoE 通过稀疏激活机制（仅针对每个 token 激活部分专家子集），在维持高表达能力的同时降低计算开销，使其在大规模应用中极具吸引力。

然而，传统 MoE 架构面临的核心挑战是专家负载不均衡：当部分专家因过度专业化或 token 分配过载时，其他专家则处于低效利用状态。由于专家通常分布于多设备并行执行， MoE 模块的整体时延往往由承载最多 token 的设备决定，这种不均衡会严重损害计算效率与系统吞吐量。

针对这一行业难题，华为盘古团队（以下简称团队）推出全新盘古 Pro MoE 大模型。

该模型创新性提出分组均衡路由技术，通过硬约束的负载均衡策略，确保每个 token 在预定义的专家分组内激活等量专家，这样就天然的确保了跨设备的专家负载均衡；结合仿真优化算法，从层数、宽度、专家数等多维度优化资源分配，构建出昇腾亲和的盘古 Pro MoE 架构。同时，深度融合昇腾 300I Duo/800I A2 硬件加速架构的并行计算特性与算子级编译优化技术，实现从算法设计到系统落地的全栈创新。

实验表明，盘古 Pro MoE 在同等算力条件下推理延迟更低，和业界同规模大模型相比，通用和复杂推理综合精度领先，为超大规模模型的工业化部署提供新范式。

接下来将系统性解析盘古 Pro MoE 的核心技术原理与工程实现路径。