DeepSeek 前成员联手李飞飞等大佬发布开源新框架，训练智能体在行动中学会思考

InfoQ · 公众号 · 科技媒体 · 2025-04-28 16:02

正文

请到「今天看啥」查看全文

研究团队在实验中使用了阿里巴巴开源的 Qwen 系列模型（包括 Qwen 1.5 和 Qwen 2.5）作为基础语言模型进行微调。这些模型具有开放权重、指令执行能力强等优点，有助于确保实验结果的可复现性，并支持在符号任务上的一致性对比。

这一系统为有志于开发更具“思考力、规划能力和自我进化能力”的 AI 智能体提供了坚实基础。RAGEN 不只是关注任务是否完成，更重视模型是否真正经历了学习与推理过程。随着 AI 技术朝着更高程度的自主性发展，像 RAGEN 这样的项目正在帮助我们理解：如何训练出不仅依赖数据、还能从自身行为后果中学习的模型。

RAGEN 及其配套的 StarPO 和 StarPO-S 框架现已开源，项目托管于 GitHub 上，采用的是 MIT 协议。

GitHub 地址： https://github.com/RAGEN-AI/RAGEN

Agent 强化学习训练

如何才能不崩溃？

王子涵在一条广泛传播的 X 贴文中指出了训练中的核心难题：为什么 RL（强化学习）训练总是会“崩”？

团队发现，训练初期的智能体通常能生成结构清晰、逻辑合理的回答，但随着训练推进，强化学习系统更倾向于奖励“捷径式”回答，最终导致模型反复输出相似内容、推理能力逐渐退化。这种现象被他们称为“回声陷阱（Echo Trap）”。

这种退化通常由反馈回路驱动：某些回答在早期获得高奖励，从而被模型频繁复制使用，抑制了探索其他可能性的动机。

但这种问题有明确的迹象可循：比如奖励波动剧烈、梯度异常增大、推理痕迹逐渐消失等。

为了在可控环境中系统性研究智能体的行为，RAGEN 设计了三个符号化测试环境，用于评估智能体的决策能力：