正文
模型形式
:其他开源/闭源模型(如用 GPT-4o 做文档总结,输入 Prompt,输出 Response)
Agent 形式
:程序和模型的集合(如文献综述 Agent,输入主题,输出综述结果)
端到端Agent模型有哪些不一样?
传统工作流依赖人工规则和分阶段处理,效率低下。RLFactory 支持端到端训练,模型可自主推理决策,决定何时、如何调用工具与终止任务,极大提升 LLM 应用的智能化和自动化水平。
-
输入
:原始任务(如用户的自然语言指令、问题、对话等)
-
输出
:最终的任务结果(如多轮工具调用后的答案、执行结果等)
-
下图展示了端到端Agent模型的交互流程:
-
输入原始
Prompt
,Agent模型推理输出
Response
(自行决定使用工具或者输出结果)
-
对模型输出做后处理,解析工具名称及参数(若未解析到工具,视为终止循环,输出模型响应)
-
按解析到的工具名称及参数运行工具(可并行),并对工具结果做后处理
-
将工具结果拼接回
Prompt
,再次调用模型,直至终止
RLFactory - 简单且高效的端到端RL后训练
RLFactory的目标是让用户专注于奖励逻辑和工具配置,以极少的代码实现快速的 Agentic Learning,而进阶开发者则可以专注于提升训练效率和模型性能。
RLFactory的核心优势:
-
奖励函数易设计
:通过
规则
、
模型判分(LLM as Judge)