专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
51好读  ›  专栏  ›  雷峰网

昇腾杀手锏FlashComm,让模型推理单车道变多车道

雷峰网  · 公众号  · 科技媒体  · 2025-05-22 19:29

正文

请到「今天看啥」查看全文


自从其问世以来,便迅速成为全球科技领域乃至整个社会的焦点。根据 Scaling law ,大语言模型的能力与其参数量的对数正相关,因此大语言模型的参数规模也在指数级增长。随之而来的,是大语言模型部署形态的变化,从神经网络时代的单卡部署,到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家( Mixture of Experts, MoE )模型,它甚至会采用数百卡组成的集群和超节点来部署。
而在这基于集群的大模型推理中,集合通信操作就像是一群工人协作盖房子时传递材料和信息的方式,能让多个计算节点高效配合完成任务。有一些常用集合通信操作,比如全量规约(A ll Reduce)可以想象成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到一个地方,进行求和、求平均值等计算。
在大模型里,多个计算节点可能各自计算了一部分参数梯度,A ll Reduce 操作能把这些梯度汇总起来,计算出最终的梯度,用于更新模型参数。再比如全量收集(All-Gather)则类似于所有工人把自己手头的材料清单共享给彼此,这样每个人都知道所有材料的情况。
在大模型里,All-Gather 操作能让每个计算节点都获取到其他节点计算出的部分结果,将分散在各节点的数据聚合到所有节点。还有像规约散射(Reduce-Scatter)操作则相当于先把所有建筑材料按类别汇总,再重新分配给不同工人。
在大模型中,Reduce-Scatter 先对数据进行规约计算,再将计算结果分散到各个节点,常用于在多个节点间分摊计算压力。也还有像A ll-To-All 这样允许所有节点之间相互交换数据,让每个节点都能获取到其他节点的相关数据的操作。
这些形形色色的集合通信操作,大多用来支持在集群上运行大模型推理时的并行策略,比如常见的张量并行(TP)是把一个大的张量(可以理解为模型的参数矩阵)拆分成多个部分,分配到不同的计算节点上计算。
在这个过程中,节点之间需要频繁交换数据,比如 All-to-All 操作就经常被用到,让各个节点能获取计算所需的张量片段,实现高效的并行计算。再如数据并行(DP),其将输入数据分成多个批次,在不同节点上同时处理不同批次的数据。各节点计算完各自批次数据对应的梯度后,需要用 AllReduce 操作把这些梯度汇总起来,计算出平均梯度,再将更新后的模型参数发送给所有节点,保证各节点使用相同的模型。
而被MoE带火的专家并行(EP)就像工厂的流水线,不同的计算节点负责模型不同专家的计算。 在这个过程中,节点之间需要传递中间计算结果,类似广播操作会把上一层的输出传递给下一层的节点,确保专家正常激活运行。
由上可以看出,集合通信操作是大模型推理中多个计算节点协作的 “桥梁”,不同的并行策略(TP、DP、EP)通过这些操作实现高效的数据交互和计算,从而加速大模型的推理过程。

通信-Scalinglaw头顶的乌云

随着集群规模和推理并发数的飞速增长,在大语言模型的推理中,通信面临的压力也在不断变大,在推动应用通算融合技术上还有一些问题需要解决:
1)随着MoE模型规模的持续扩张,专家数量与参数总量呈指数级增长,单个模型参数突破千亿级别已成常态。尽管MoE通过稀疏激活机制仅调用部分专家,但海量参数的存储与调度仍对硬件构成严峻挑战。MoE模型的稀疏计算特性虽能提升推理效率,却引入了更复杂的流程与通信瓶颈。专家路由、数据分发与结果聚合等环节紧密耦合,通信带宽需求随专家数量呈平方级增长,极易引发网络拥塞;而流程各阶段的强依赖性使得计算与通信难以重叠,硬件资源长期处于“饥饿”状态。如何实现通信与计算的深度协同成为关键难题






请到「今天看啥」查看全文


推荐文章
言安堂  ·  去年在护肤品上我们学到了什么
8 年前
吃什么情报局  ·  荐号丨如何快速提升拍照水平?
8 年前
美食菜谱大全  ·  你有一封来自四月的信
8 年前