专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

目录

相关文章推荐

爱可可-爱生活 · SKILLVERSE创新性地提出了一种无监督 ... · 20 小时前

爱可可-爱生活 · [LG]《General agents ... · 20 小时前

爱可可-爱生活 · //@爱可可-爱生活：明日开奖，欢迎参与～- ... · 20 小时前

宝玉xp · 转译：别以为自己是个能干的救火队员，就真被重 ... · 昨天

机器之心 · 本周日不见不散！CVPR ... · 昨天

51好读 › 专栏 › 新智元

AI竟会「自己认错」？破解多智能体协作「罗生门」，斩获ICML 2025 Spotlight

新智元 · 公众号 · AI · 2025-06-02 16:44

主要观点总结

本文主要介绍了多智能体AI系统面临的真实困境，即当任务失败时，如何知道是哪个AI出了问题。针对这个问题，PSU、杜克大学与谷歌DeepMind等机构首次提出「自动化失败归因」，并发布了Who数据集。文章还介绍了三种归因方法，并进行了实验评估，发现目前的方法还存在很多问题，需要更智能、更可靠的Multi-Agent系统。

关键观点总结

关键观点1: 多智能体AI系统面临的任务失败问题，以及为何需要自动化失败归因。

在多智能体AI系统中，任务失败时，开发者难以确定是哪个AI出了问题。为了解决这个困境，PSU、杜克大学等机构首次提出了自动化失败归因，并发布了Who数据集。

关键观点2: Who数据集的介绍。

Who数据集是从127个LLM Multi-Agent系统中收集的广泛失败日志，每条日志都配有人工标注的「谁」、「何时」和「为何」等信息。注释过程非常耗时且复杂，突显了任务的复杂性和挑战性。

关键观点3: 三种自动化失败归因方法的介绍和评估。

论文设计并评估了三种不同的自动化失败归因方法：全局审视法、逐步侦查法和二分定位法。实验结果表明，这些方法在准确性、成本和分析粒度上各有优缺点，没有一种能在所有指标上表现最佳。

关键观点4: 实验的主要发现和结论。

实验发现，目前的方法离完美还差得很远，识别「背锅Agent」和准确定位「错误步骤」的准确率都很低。不同方法在不同子任务上表现各异，没有万能冠军。组合不同方法的策略虽然能提升性能，但计算成本显著增加。最先进的推理模型在处理这一任务时也显得力不从心。

正文

请到「今天看啥」查看全文

依赖经验 ：这种调试过程高度依赖开发者对系统和任务的深入理解。

这种「大海捞针」式的排错方式，不仅效率低下，更严重阻碍了系统的快速迭代和可信赖度的提升。

目前迫切需要一种 自动化、系统化 的方法来定位失败原因，将「评估结果」与「系统改进」有效连接起来。

核心贡献

针对上述挑战，这篇论文做出了开创性的贡献：

1. 提出并定义新问题

首次将「自动化失败归因」形式化为一个具体的研究任务，明确了要找出导致失败的 责任Agent （failure-responsible agent） 和 决定性错误步骤（decisive error step） 。

2. 构建首个数据集——Who&When

该数据集包含了从 127个LLMMulti-Agent系统 中收集的广泛失败日志。这些系统既有算法 自动生成的 ，也有 人类专家精心打造的 ，确保了场景的真实性和多样性。

每条失败日志都配有 细粒度的人工标注 ：

「谁」 （Who） ：哪个Agent是「罪魁祸首」。
「何时」 （When） ：决定性错误发生在交互的哪一步。
「为何」 （Why） ：对失败原因的自然语言解释。

标注关键错误代理以及确定出错的具体步骤，对普通人和领域专家来说都是一项挑战。

注释者需要解析复杂的日志，理清每个代理的解决问题逻辑，并判断每个动作是正确的，还是会误导整个问题解决过程。

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · SKILLVERSE创新性地提出了一种无监督的树状评估框架，通过-20250604053618

20 小时前

爱可可-爱生活 · [LG]《General agents need world m-20250604055040

20 小时前

爱可可-爱生活 · //@爱可可-爱生活：明日开奖，欢迎参与～-20250604060419

20 小时前

宝玉xp · 转译：别以为自己是个能干的救火队员，就真被重视了这当中的差别，可-20250604001448

昨天

机器之心 · 本周日不见不散！CVPR 2025北京论文分享会最后报名了

昨天

圈内扒爷 · 吃货上节目，挡也挡不住！徐海乔《奇妙大轰趴》，分分钟被套路！

8 年前

差评X.PIN · 苹果发生离奇故障黑客趁火打劫，特斯拉召回五万多辆汽车，乐视第三大股东逼宫贾跃亭？全球首辆飞行汽车亮相，这就是今天的其他大新闻！

8 年前

扬子晚报 · 清洁工捡到求救餐巾纸：他要杀人，我是他老婆！警察赶到时…

8 年前

那一座城 · 香港丨在这里，像梁朝伟和张曼玉那样吃饭恋爱。

8 年前

国际家居 · 活动|友谊从来都是以共性作为起点

7 年前

移动版

51好读 - 微信公众号文章