专栏名称: 财联社
财联社系上海报业集团旗下界面(上海)网络科技有限公司产品,定位财经资讯报道,全面聚焦全球证券市场资讯,为投资者提供365天24小时不间断的“快速、准确、权威、专业”金融信息服务。
目录
相关文章推荐
Python爱好者社区  ·  生成式AI,彻底爆了! ·  昨天  
Python爱好者社区  ·  近4年不租房睡车里省10万元!41岁程序员回 ... ·  2 天前  
Python爱好者社区  ·  强的离谱!CNN,yyds ·  2 天前  
Python爱好者社区  ·  《MCP原理与实践》—— ... ·  4 天前  
Python开发者  ·  外网热议:为什么 DeepSeek ... ·  昨天  
51好读  ›  专栏  ›  财联社

RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活

财联社  · 公众号  ·  · 2025-06-05 16:59

正文

请到「今天看啥」查看全文


LLM 后训练成本。

因此,训推共卡技术,成为提升集群资源利用率的核心突破口。

大规模集群的扩展困境

另一方面,随着 MoE 模型普及,专家并行( EP )、张量并行( TP )、数据并行( DP )等多模型异构并行策略组合,使得任务调度复杂度呈指数级增长。

而现有框架在大规模集群中,难以让其实现高效协同,进而导致了扩展效率显著下降。

如何通过软硬协同打破资源瓶颈,释放潜在的红利,成为华为团队聚焦突破的关键方向。

RL Fusion :一卡干俩活,利用率吞吐翻倍

针对 RL 后训练资源利用率低的问题,华为团队深入剖析异构模型和多任务场景的负载特点,提出了创新性的 RL Fusion 训推共卡技术。

简单来说,就是让一张卡既做训练又做推理,效率直接翻倍。

RL Fusion 支持 训练推理共卡 、全共卡等多种灵活部署模式(如图 1 ),可实现推理阶段资源调度的精细化可控管理。

它还支持张量并行( TP )、数据并行( DP )、流水线并行( PP )等多维并行策略的动态无缝切换,实现计算资源「一箭双雕」,即在同一计算资源上执行 Actor 模型生成和训练 2 个任务。

1 :训推分离、训推共卡、全共卡部署计算资源利用情况示意图

值得一提的是,在小规模场景下, RL Fusion 还能把 Reference Reward 模型的资源「榨干」,进一步实现「一箭四雕」,效率直接拉满。

此外,针对大规模高稀疏比 MoE 模型,华为通过对训推态内存进行极致分析,首次提出了 训推内存 0 冗余切换, 实现 训推 EP 动态切换, 如图 2 所示。

2 MoE 大模型训推 EP 动态变化示意图







请到「今天看啥」查看全文