专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7

机器之心  · 公众号  · AI  · 2025-05-25 11:51

主要观点总结

文章介绍了上海交通大学和SII的最新研究,通过使用仅312条人类标注轨迹,结合轨迹增强和思维链补全方法,训练出性能强大的电脑智能体PC Agent-E。该智能体在Windows系统上的性能超越了当前开源电脑智能体的水平,成为新一代SOTA。文章还介绍了研究方法和实验结果的验证,并讨论了未来电脑智能体的发展前景。

关键观点总结

关键观点1: 研究背景与现状

介绍了电脑智能体的发展背景,包括业界普遍认为的轨迹数据和强化学习的重要性,以及大规模轨迹标注和虚拟机环境构建的复杂性。

关键观点2: 研究方法与核心创新

详细描述了上海交通大学和SII的研究方法,包括轨迹收集、思维链补全、轨迹增强和模型训练等关键步骤,以及创新点如使用极少量高质量轨迹提升智能体性能。

关键观点3: 实验验证与结果

介绍了实验验证的过程,包括在WindowsAgentArena-V2和OSWorld上的评估结果,以及轨迹增强方法的有效性验证。

关键观点4: 结论与展望

总结了实验结果,并指出即使是最前沿的电脑智能体,其能力与人类相比仍有明显差距。文章还提到了研究的局限性以及未来发展方向。


正文

请到「今天看啥」查看全文





PC Agent-E:如何用极少量轨迹训练出强大的电脑智能体?


数据从哪来?人类提供原始操作轨迹


与以往依赖大规模人工标注或复杂自动化合成的方式不同,团队的方法只需 312 条真实的人类操作轨迹。这些轨迹由团队开发的工具 PC Tracker 收集而来, 仅由两位作者花一天时间操作自己的电脑,就完成了原始轨迹数据的收集。 每条轨迹包含任务描述、屏幕截图以及键盘鼠标操作,并确保了数据的正确性。


312 条轨迹在不同软件上的分布


思维链补全:让「动作」有「思考」的支撑


人类执行每一个动作,往往都有一定的理由或「思考过程」。但在收集的原始轨迹数据中,这部分「思维链」是缺失的。于是,团队对人类动作进行了「思维链补全」(Thought Completion),为每一个动作步骤添加了背后的思考逻辑(符合于 ReAct 范式)。此时的数据已足以用于智能体训练,但团队并未止步于此——接下来的关键一步,进一步大幅提升了轨迹质量。







请到「今天看啥」查看全文