专栏名称: 财联社

财联社系上海报业集团旗下界面（上海）网络科技有限公司产品，定位财经资讯报道，全面聚焦全球证券市场资讯，为投资者提供365天24小时不间断的“快速、准确、权威、专业”金融信息服务。

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

财联社 · 公众号 · · 2025-06-05 16:59

正文

LLM 后训练成本。

因此，训推共卡技术，成为提升集群资源利用率的核心突破口。

大规模集群的扩展困境

另一方面，随着 MoE 模型普及，专家并行（ EP ）、张量并行（ TP ）、数据并行（ DP ）等多模型异构并行策略组合，使得任务调度复杂度呈指数级增长。

而现有框架在大规模集群中，难以让其实现高效协同，进而导致了扩展效率显著下降。

如何通过软硬协同打破资源瓶颈，释放潜在的红利，成为华为团队聚焦突破的关键方向。

RL Fusion ：一卡干俩活，利用率吞吐翻倍

针对 RL 后训练资源利用率低的问题，华为团队深入剖析异构模型和多任务场景的负载特点，提出了创新性的 RL Fusion 训推共卡技术。

简单来说，就是让一张卡既做训练又做推理，效率直接翻倍。

RL Fusion 支持 训练推理共卡 、全共卡等多种灵活部署模式（如图 1 ），可实现推理阶段资源调度的精细化可控管理。

它还支持张量并行（ TP ）、数据并行（ DP ）、流水线并行（ PP ）等多维并行策略的动态无缝切换，实现计算资源「一箭双雕」，即在同一计算资源上执行 Actor 模型生成和训练 2 个任务。

图 1 ：训推分离、训推共卡、全共卡部署计算资源利用情况示意图

值得一提的是，在小规模场景下， RL Fusion 还能把 Reference 及 Reward 模型的资源「榨干」，进一步实现「一箭四雕」，效率直接拉满。

此外，针对大规模高稀疏比 MoE 模型，华为通过对训推态内存进行极致分析，首次提出了 训推内存 0 冗余切换， 实现 训推 EP 动态切换， 如图 2 所示。

图 2 ： MoE 大模型训推 EP 动态变化示意图

推荐文章

Python爱好者社区 · 生成式AI，彻底爆了！

昨天

Python爱好者社区 · 近4年不租房睡车里省10万元！41岁程序员回应：并非省钱，月入几万元，老家有“小别墅”

2 天前

Python爱好者社区 · 强的离谱！CNN，yyds

2 天前

Python爱好者社区 · 《MCP原理与实践》—— 国内首本MCP图书火热上市

4 天前

Python开发者 · 外网热议：为什么 DeepSeek 大规模部署成本低，但本地运行昂贵？

昨天

普象工业设计小站 · 【手工DIY】相框不仅能放照片，还能有这么多用处！

8 年前

HACCP · 【资料】食品人常用优质网站汇总

8 年前

互联网分析师 · 提高办公效率，有这三样就够了！

7 年前

军事纵横 · 刚刚，中国在太空干了件大事，震惊全球！美国慌了，印度吓傻了！

7 年前

灵魂有香气的女子 · “38岁妈妈独自带娃猝死家中”后续：那些高满意度的婚姻，究竟都呈现何种状态？

7 年前