专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
51好读  ›  专栏  ›  InfoQ

DeepSeek 前成员联手李飞飞等大佬发布开源新框架,训练智能体在行动中学会思考

InfoQ  · 公众号  · 科技媒体  · 2025-04-28 16:02

正文

请到「今天看啥」查看全文


研究团队在实验中使用了阿里巴巴开源的 Qwen 系列模型(包括 Qwen 1.5 和 Qwen 2.5)作为基础语言模型进行微调。这些模型具有开放权重、指令执行能力强等优点,有助于确保实验结果的可复现性,并支持在符号任务上的一致性对比。

这一系统为有志于开发更具“思考力、规划能力和自我进化能力”的 AI 智能体提供了坚实基础。RAGEN 不只是关注任务是否完成,更重视模型是否真正经历了学习与推理过程。随着 AI 技术朝着更高程度的自主性发展,像 RAGEN 这样的项目正在帮助我们理解:如何训练出不仅依赖数据、还能从自身行为后果中学习的模型。

RAGEN 及其配套的 StarPO 和 StarPO-S 框架现已开源,项目托管于 GitHub 上,采用的是 MIT 协议。

GitHub 地址: https://github.com/RAGEN-AI/RAGEN

Agent 强化学习训练
如何才能不崩溃?

王子涵在一条广泛传播的 X 贴文中指出了训练中的核心难题:为什么 RL(强化学习)训练总是会“崩”?

团队发现,训练初期的智能体通常能生成结构清晰、逻辑合理的回答,但随着训练推进,强化学习系统更倾向于奖励“捷径式”回答,最终导致模型反复输出相似内容、推理能力逐渐退化。这种现象被他们称为“回声陷阱(Echo Trap)”。

这种退化通常由反馈回路驱动:某些回答在早期获得高奖励,从而被模型频繁复制使用,抑制了探索其他可能性的动机。

但这种问题有明确的迹象可循:比如奖励波动剧烈、梯度异常增大、推理痕迹逐渐消失等。

为了在可控环境中系统性研究智能体的行为,RAGEN 设计了三个符号化测试环境,用于评估智能体的决策能力:







请到「今天看啥」查看全文