312条轨迹激发241%性能！上交大与SII开源电脑智能体，超越 Claude 3.7

机器之心 · 公众号 · AI · 2025-05-25 11:51

主要观点总结

文章介绍了上海交通大学和SII的最新研究，通过使用仅312条人类标注轨迹，结合轨迹增强和思维链补全方法，训练出性能强大的电脑智能体PC Agent-E。该智能体在Windows系统上的性能超越了当前开源电脑智能体的水平，成为新一代SOTA。文章还介绍了研究方法和实验结果的验证，并讨论了未来电脑智能体的发展前景。

关键观点总结

关键观点1: 研究背景与现状

介绍了电脑智能体的发展背景，包括业界普遍认为的轨迹数据和强化学习的重要性，以及大规模轨迹标注和虚拟机环境构建的复杂性。

关键观点2: 研究方法与核心创新

详细描述了上海交通大学和SII的研究方法，包括轨迹收集、思维链补全、轨迹增强和模型训练等关键步骤，以及创新点如使用极少量高质量轨迹提升智能体性能。

关键观点3: 实验验证与结果

介绍了实验验证的过程，包括在WindowsAgentArena-V2和OSWorld上的评估结果，以及轨迹增强方法的有效性验证。

关键观点4: 结论与展望

总结了实验结果，并指出即使是最前沿的电脑智能体，其能力与人类相比仍有明显差距。文章还提到了研究的局限性以及未来发展方向。

正文

请到「今天看啥」查看全文

PC Agent-E：如何用极少量轨迹训练出强大的电脑智能体？

数据从哪来？人类提供原始操作轨迹

与以往依赖大规模人工标注或复杂自动化合成的方式不同，团队的方法只需 312 条真实的人类操作轨迹。这些轨迹由团队开发的工具 PC Tracker 收集而来，仅由两位作者花一天时间操作自己的电脑，就完成了原始轨迹数据的收集。每条轨迹包含任务描述、屏幕截图以及键盘鼠标操作，并确保了数据的正确性。

312 条轨迹在不同软件上的分布

思维链补全：让「动作」有「思考」的支撑

人类执行每一个动作，往往都有一定的理由或「思考过程」。但在收集的原始轨迹数据中，这部分「思维链」是缺失的。于是，团队对人类动作进行了「思维链补全」（Thought Completion），为每一个动作步骤添加了背后的思考逻辑（符合于 ReAct 范式）。此时的数据已足以用于智能体训练，但团队并未止步于此——接下来的关键一步，进一步大幅提升了轨迹质量。