A conversation between User and Assistant. The user asks a question, and the Assistant solves it.\nUser:Please integrate natural language reasoning with programs to solve the problem above, and put your finalanswer within \boxed{}.\nprompt\nAssistant:
Design Choices of ToRL
Tool Call Frequency Control
: rollout期间的工具集成会引入大量GPU空闲时间,rollout速度与工具调用频率成反比。为了保持合理的训练效率,本文引入了一个超参数C,表示每次响应生成允许的最大工具调用次数。一旦超过此阈值,系统将忽略进一步的代码执行请求,迫使模型切换到纯文本推理模式。
Error Message Processing
: 实施了特定的错误处理优化,以提高训练效果。当Sandbox Fusion遇到执行错误时,它会生成包含不相关文件路径信息的详细回溯。为了减少上下文长度并仅保留相关的错误信息,只提取最后一行错误消息(例如,NameError: name 'a' is not defined)。
基于规则的奖励机制已展现出强大的实证效果,并被广泛采用。ToolRL同样采用了一种结合结构性和基于正确性的奖励公式,这与先前的研究一致。具体而言,格式奖励评估模型输出是否符合预期的结构,包括想法、工具调用和响应;而正确性奖励则评估工具调用的准确性。形式上,整体奖励 R final(·) 分解为两个部分:R format + R correct,每个部分的具体描述如下:
Format Reward
: 奖励格式 Rformat ∈ {0, 1} 检查模型输出是否按照基本事实指定的正确顺序包含所有必需的特殊token:
Correctness Reward
: 正确性奖励 Rcorrect ∈ [−3, 3],用于评估预测的工具调用 P = {P1, ..., Pm} 与真实调用 G = {G1, ..., Gn}。它包含三个部分:ToolName Matching, Parameter Name Matching, Parameter Content Matching, 具体就不详细展开了,都是一些格式检查的评判细则,贴了主要的公式.