总结！2025年大模型Agent RL训练多轮planning技术

机器学习算法与自然语言处理 · 公众号 · · 2025-05-28 01:41

正文

请到「今天看啥」查看全文

TORL在数据集的构造中使用了LIMR，抽取高质量的样本，均衡难样本的分布，本来有75,149，筛选后得到28,740条数据，为了使模型能够使用代码块自动输出推理，TORL使用了如下所示的prompt。

在模型的推出过程中，当检测到代码终止标识符（“output”）时，系统会暂停文本生成，提取最新的代码块以供执行，并将结构化执行结果以“output\nOBSERVATION\n”格式插入上下文中，其中OBSERVATION是执行结果。然后，系统继续生成后续的自然语言推理，直到模型提供最终答案或生成新的代码块。

值得注意的是，当代码执行失败时，故意向LLM返回错误消息，因为假设这些错误诊断增强了模型在后续迭代中生成语法和语义正确代码的能力。

A conversation between User and Assistant. The user asks a question, and the Assistant solves it.\nUser:Please integrate natural language reasoning with programs to solve the problem above, and put your finalanswer within \boxed{}.\nprompt\nAssistant:

Design Choices of ToRL

Tool Call Frequency Control : rollout期间的工具集成会引入大量GPU空闲时间，rollout速度与工具调用频率成反比。为了保持合理的训练效率，本文引入了一个超参数C，表示每次响应生成允许的最大工具调用次数。一旦超过此阈值，系统将忽略进一步的代码执行请求，迫使模型切换到纯文本推理模式。

Execution Environment Selection : 为了平衡培训效率和有效性，我们寻求一个稳定、准确和响应迅速的代码解释器实现。经过调研和测试，最终选择了Sandbox Fusion2，它提供了一个隔离的执行环境。尽管延迟稍高，但它为持续训练操作提供了卓越的稳定性。

Error Message Processing : 实施了特定的错误处理优化，以提高训练效果。当Sandbox Fusion遇到执行错误时，它会生成包含不相关文件路径信息的详细回溯。为了减少上下文长度并仅保留相关的错误信息，只提取最后一行错误消息（例如，NameError： name 'a' is not defined）。

Sandbox Output Masking : 在损失计算过程中，从sandbox environment中屏蔽了OBSERVATION输出，通过防止模型试图记忆特定的执行输出而不是学习可推广的推理模式，显著提高了训练稳定性。

Reward Design : 实现了一个基于规则的奖励函数，正确答案获得1的奖励，错误答案获得-1的奖励。此外，代码解释器自然会提供关于代码可执行性的反馈。基于成功执行代码和解决问题准确性之间的相关性，引入了一种基于执行的惩罚：包含不可执行代码的响应会减少-0.5的奖励。更多详细内容请参考论文：

ToolRL: Reward is All Tool Learning Needs

论文：https://arxiv.org/abs/2504.13958

当前的大型语言模型 (LLM) 通常需要进行监督微调 (SFT) 来获得工具使用能力。然而，SFT 难以推广到不熟悉或复杂的工具使用场景。强化学习 (RL) 领域的最新进展，尤其是类似 R1 的模型，已经展现出良好的推理和泛化能力。然而，针对工具使用的奖励设计面临着独特的挑战：多个工具可能以不同的参数调用，而粗粒度的奖励信号（例如答案匹配）无法提供有效学习所需的细粒度反馈。

在本研究中，ToolRL全面研究了 RL 范式中工具选择和应用任务的奖励设计。系统地探索了各种奖励策略，分析了它们的类型、规模、粒度和时间动态。基于这些见解，我们提出了一种针对工具使用任务量身定制的原则性奖励设计，并将其应用于使用组相对策略优化 (GRPO) 的 LLM 训练。

在不同基准测试中的实证评估表明，ToolRL能够实现稳健、可扩展且稳定的训练，相比基础模型提升了 17%，相比 SFT 模型提升了 15%。这些结果凸显了精心设计的奖励机制在提升 LLM 的工具使用能力和泛化性能方面的关键作用。

为了确定最佳奖励策略，探索了四个关键维度的各种奖励配置：

• 1 奖励类型（奖励哪些方面）
• 2 奖励尺度（奖励多少）
• 3 奖励粒度（奖励信号的详细程度）
• 4 奖励动态（奖励如何随时间演变）。

通过大量的实验确定了最符合主体工具使用情况的奖励设计，并揭示了奖励对于调用工具的 LLM 而言“有用”的原因。论文得出的核心见解总结如下：

• 推理轨迹越长并不一定越好，而且过长的奖励可能会降低性能。
• 动态奖励尺度有助于模型从简单行为平稳过渡到复杂行为。
• 细粒度的奖励分解可实现更稳定、更有效的学习。

基于规则的奖励机制已展现出强大的实证效果，并被广泛采用。ToolRL同样采用了一种结合结构性和基于正确性的奖励公式，这与先前的研究一致。具体而言，格式奖励评估模型输出是否符合预期的结构，包括想法、工具调用和响应；而正确性奖励则评估工具调用的准确性。形式上，整体奖励 R final(·) 分解为两个部分：R format + R correct，每个部分的具体描述如下:

Format Reward : 奖励格式 Rformat ∈ {0, 1} 检查模型输出是否按照基本事实指定的正确顺序包含所有必需的特殊token：

Correctness Reward : 正确性奖励 Rcorrect ∈ [−3, 3]，用于评估预测的工具调用 P = {P1, ..., Pm} 与真实调用 G = {G1, ..., Gn}。它包含三个部分：ToolName Matching, Parameter Name Matching, Parameter Content Matching，具体就不详细展开了，都是一些格式检查的评判细则，贴了主要的公式.

训练采用的是GRPO的方法，verl训练框架，基座模型使用的是llama3.2和qwen模型，详细就不展开了，有兴趣请参考论文。

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

论文：https://arxiv.org/abs/2504.20073
代码：https://github.com/RAGEN-AI/RAGEN

将大型语言模型 (LLM) 训练为交互式智能体面临着独特的挑战，包括长期决策以及与随机环境反馈的交互。虽然强化学习 (RL) 在静态任务中取得了进展，但多轮智能体 RL 训练仍未得到充分探索。

论文提出了 StarPO（状态-思考-行动-奖励策略优化），这是一个用于轨迹级智能体 RL 的通用框架，并介绍了 RAGEN，一个用于训练和评估 LLM 智能体的模块化系统。本研究有三个核心发现。

首先，智能体 RL 训练呈现出一种反复出现的“回声陷阱”模式，其中奖励方差出现断崖式下降，梯度出现峰值；使用 StarPO-S 来解决这个问题，这是一个稳定的变体，具有轨迹过滤、评价器合并和解耦裁剪功能。

其次，多样化的初始状态、中等交互粒度和更频繁的采样将有利于 RL 部署的形成。

第三，如果没有细粒度的、推理感知的奖励信号，agent推理就很难通过多轮 RL 出现，并且它们可能会表现出浅薄的策略或幻觉的想法。

分析了agents学习的三个关键维度，并总结了以下发现，揭示了稳定agent RL 训练的核心挑战和设计原则：

多轮强化学习中的梯度稳定性是稳定训练的关键 。多轮强化学习训练经常导致一种反复出现的不稳定模式，即“echo trap”，即agent过拟合局部奖励推理模式，其特征是奖励方差崩溃、熵下降和梯度尖峰。为了缓解这种失效模式，本文提出了 StarPO-S，它通过基于方差的轨迹过滤、Critic 基准测试和解耦裁剪来提高学习鲁棒性。

部署频率和多样性塑造自我进化 。在基于强化学习的agent训练中，LLM 自生成的部署轨迹被用作核心训练材料。确定了agent强化学习稳定训练的关键部署因素：

• (1) 确保部署来自多样化的提示集，每个提示有多个响应；
• (2) 每轮执行多个操作，以在固定的轮次限制内改善交互范围；
• (3) 保持较高的部署频率，以确保在线反馈反映当前策略。

新兴智能体推理需要细致的奖励信号