专栏名称: 华尔街见闻
追踪全球财经热点,精选影响您财富的资讯,投资理财必备神器!
目录
相关文章推荐
51好读  ›  专栏  ›  华尔街见闻

华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一

华尔街见闻  · 公众号  · 财经  · 2025-05-29 08:57

正文

请到「今天看啥」查看全文


大模型 架构 ,训练效率更优

路由专家被均匀划分为 M 个不重叠的组,其中每个组内的专家将 被分配到同一个设备上。对于每个输入特征, MoGE首先通过全局softmax路由器计算所有专家的门控得分。接着,在每个专家组内,根据这些得分选出 K ′=K /M 个得分最高的专家(图中为 从每组 4 个专家中选取 2 个)。未被选中的专家,其对应权重被置为 0。最终MoGE的输出由被激活专家的输出和共享专家的输出加权求和得到。


序言

混合专家模型已成为大型语言模型领域的革新范式 ——近年来,模型与数据集规模呈指数级增长,而MoE通过稀疏激活机制(仅针对每个token激活部分专家子集),在维持高表达能力的同时降低计算开销,使其在大规模应用中极具吸引力。

然而,传统 MoE架构面临的核心挑战是专家负载不均衡:当部分专家因过度专业化或token分配过载时,其他专家则处于低效利用状态。由于专家通常分布于多设备并行执行,MoE模块的整体时延往往由承载最多token的设备决定,这种不均衡会严重损害计算效率与系统吞吐量。

针对这一行业难题,华为盘古团队(以下简称团队)推出 全新盘古 Pro MoE大模型

该模型创新性提出分组均衡路由技术,通过硬约束的负载均衡策略,确保每个 token在预定义的专家分组内激活等量专家,这样就天然的确保了跨设备的专家负载均衡;结合仿真优化算法,从层数、宽度、专家数等多维度优化资源分配,构建出昇腾亲和的盘古Pro MoE架构。同时,深度融合昇腾300I Duo/800I A2硬件加速架构的并行计算特性与算子级编译优化技术,实现从算法设计到系统落地的全栈创新。

实验表明,盘古 Pro MoE在同等算力条件下推理延迟更低,和业界同规模大模型相比,通用和复杂推理综合精度领先,为超大规模模型的工业化部署提供新范式。

接下来将系统性解析盘古 Pro MoE 的核心技术原理与工程实现路径。







请到「今天看啥」查看全文