主要观点总结
华为盘古团队提出了分组混合专家模型(MoGE)架构,解决了传统MoE模型专家激活频次高度不均衡的问题。新架构通过分组均衡路由技术实现跨设备的计算负载均衡,并在昇腾大规模集群上进行了高效训练。盘古Pro MoE大模型在多个领域取得了优异成绩,相比其他大模型,它以更小的参数量达到了相当或更好的性能。此外,该模型还解决了专家负载不均衡的问题,提高了硬件资源利用率和推理速度。该模型的成功应用标志着大模型从“参数军备竞赛”转向“实效主义”,为AI产业应用领域开辟了新的蓝海。
关键观点总结
关键观点1: 分组混合专家模型(MoGE)架构的提出
解决了传统MoE模型专家激活频次高度不均衡的问题,通过分组均衡路由技术实现跨设备的计算负载均衡。
关键观点2: 盘古Pro MoE大模型的性能优势
在多个领域取得了优异成绩,相比其他大模型,以更小的参数量达到了相当或更好的性能。
关键观点3: 解决专家负载不均衡问题
通过分组均衡路由技术和辅助损失函数解决专家负载不均衡问题,提高了硬件资源利用率和推理速度。
关键观点4: 行业价值
盘古Pro MoE的诞生标志着大模型从“参数军备竞赛”转向“实效主义”,为AI产业应用领域开辟了新的蓝海。
正文
英文技术报告:https://arxiv.org/pdf/2505.21411
图源:https://www.superclueai.com/
昇腾原生的
MoGE
大模型
架构
,训练效率更优
路由专家被均匀划分为
𝑀
个
不重叠的组,其中每个组内的专家将 被分配到同一个设备上。对于每个输入特征,
MoGE
首先通过全局
softmax
路由器计算所有专家 的门控得分。接着,在每个专家组内,根据这些得分选出
𝐾
′ =
𝐾
/
𝑀
个
得分最高的专家(图中为 从每组 4
个
专家中选取 2
个
)。未被选中的专家,其对应权重被置为 0。最终
MoGE
的输出由被 激活专家的输出和共享专家的输出加权求和得到。
混合专家模型已成为大型语言模型领域的革新范式 —— 近年来,模型与数据集规模呈
指数级
增长,而
MoE
通过稀疏激活机制(仅针对每个 token 激活部分专家子集),在维持
高表
达能力的同时降低计算开销,使其在大规模应用中极具吸引力。
然而,传统
MoE
架构面临的核心挑战是专家负载不均衡:当部分专家因过度专业化或 token 分配过载时,其他专家则处于低效利用状态。由于专家通常分布于多设备并行执行,
MoE
模块的整体时延往往由承载最多 token 的设备决定,这种不均衡会严重损害计算效率与系统吞吐量。
针对这一行业难题,华为盘古团队(以下简称团队)推出
全新盘古 Pro
MoE
大模型
。
该模型创新性提出分组均衡路由技术,通过硬约束的负载均衡策略,确保每个 token 在预定义的专家分组内激活等量专家,这样就天然的确保了跨设备的专家负载均衡;结合仿真优化算法,从层数、宽度、专家数等多维度优化资源分配,构建出昇腾亲和的盘古 Pro
MoE
架构。同时,深度融合昇腾 300I Duo/800I A2 硬件加速架构的并行计算特性与
算子级编译
优化技术,实现从算法设计到系统落地的全栈创新。
实验表明,盘古 Pro
MoE
在同等
算力条件
下推理延迟更低,和业界同规模大模型相比,通用和复杂推理综合精度领先,为超大规模模型的工业化部署提供新范式。
接下来将系统性解析盘古 Pro
MoE
的核心技术原理与工程实现路径。