专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
DataFunTalk  ·  Data Warebase 成功押注 ... ·  14 小时前  
DataFunTalk  ·  Data Warebase 成功押注 ... ·  14 小时前  
爱可可-爱生活  ·  本文提出LIFT方法,通过对LLM权重矩阵进 ... ·  昨天  
宝玉xp  ·  回复@想要一架梯子:官方 github ... ·  2 天前  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与~-20250 ... ·  2 天前  
爱可可-爱生活  ·  【[137星]adb-mcp:为Adobe工 ... ·  3 天前  
51好读  ›  专栏  ›  机器之心

ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出...

机器之心  · 公众号  · AI  · 2025-05-30 11:28

正文

请到「今天看啥」查看全文




对于开发者来说,一个失败案例往往意味着必须手动审阅长长的对话日志,试图找出哪个 Agent 在哪一步出了差错。这种调试过程既 费时费力 ,也需要调试者对整个任务逻辑非常熟悉。更大的挑战在于, 缺乏系统化的方法 来定位失败原因 —— 传统评估只关注任务成功与否,但很少深入到「失败责任」这一层面上。


结果就是,多智能体系统一旦出错,我们往往只能知道「出了问题」却无法快速知道「问题出在哪、因何而起」。这种局面严重限制了多智能体系统的改进和可信度。如果无法自动归因失败,我们就难以针对性地加强某个 Agent 的能力或优化协作策略。换言之, 失败归因是连接评估与改进的缺失环节


研究内容


针对上述挑战,这篇 ICML 2025 Spotlight 论文率先提出并 formalize 了 LLM 多智能体系统的自动化失败归因 这一新任务。


研究的核心目标: 给定一个多 Agent 协作任务的失败日志,自动确定导致失败的罪魁祸首是哪个 Agent(「Who」),以及决定性错误发生在交互的哪一步(「When」)


为推动这一方向,作者构建了首个用于失败归因研究的基准数据集 —— 「Who&When」 。该数据集精心收集了 127 个多智能体系统的失败日志 ,涵盖了多个公开基准(如 GAIA、AssistantBench 等)中的复杂任务,具有相当的多样性。更重要的是,作者为每条失败日志都提供了 细粒度的人工标注


  • 标记出导致任务失败的







请到「今天看啥」查看全文