专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  SKILLVERSE创新性地提出了一种无监督 ... ·  20 小时前  
爱可可-爱生活  ·  [LG]《General agents ... ·  20 小时前  
爱可可-爱生活  ·  //@爱可可-爱生活:明日开奖,欢迎参与~- ... ·  20 小时前  
机器之心  ·  本周日不见不散!CVPR ... ·  昨天  
51好读  ›  专栏  ›  新智元

AI竟会「自己认错」?破解多智能体协作「罗生门」,斩获ICML 2025 Spotlight

新智元  · 公众号  · AI  · 2025-06-02 16:44

主要观点总结

本文主要介绍了多智能体AI系统面临的真实困境,即当任务失败时,如何知道是哪个AI出了问题。针对这个问题,PSU、杜克大学与谷歌DeepMind等机构首次提出「自动化失败归因」,并发布了Who数据集。文章还介绍了三种归因方法,并进行了实验评估,发现目前的方法还存在很多问题,需要更智能、更可靠的Multi-Agent系统。

关键观点总结

关键观点1: 多智能体AI系统面临的任务失败问题,以及为何需要自动化失败归因。

在多智能体AI系统中,任务失败时,开发者难以确定是哪个AI出了问题。为了解决这个困境,PSU、杜克大学等机构首次提出了自动化失败归因,并发布了Who数据集。

关键观点2: Who数据集的介绍。

Who数据集是从127个LLM Multi-Agent系统中收集的广泛失败日志,每条日志都配有人工标注的「谁」、「何时」和「为何」等信息。注释过程非常耗时且复杂,突显了任务的复杂性和挑战性。

关键观点3: 三种自动化失败归因方法的介绍和评估。

论文设计并评估了三种不同的自动化失败归因方法:全局审视法、逐步侦查法和二分定位法。实验结果表明,这些方法在准确性、成本和分析粒度上各有优缺点,没有一种能在所有指标上表现最佳。

关键观点4: 实验的主要发现和结论。

实验发现,目前的方法离完美还差得很远,识别「背锅Agent」和准确定位「错误步骤」的准确率都很低。不同方法在不同子任务上表现各异,没有万能冠军。组合不同方法的策略虽然能提升性能,但计算成本显著增加。最先进的推理模型在处理这一任务时也显得力不从心。


正文

请到「今天看啥」查看全文


  • 依赖经验 :这种调试过程高度依赖开发者对系统和任务的深入理解。

  • 这种「大海捞针」式的排错方式,不仅效率低下,更严重阻碍了系统的快速迭代和可信赖度的提升。

    目前迫切需要一种 自动化、系统化 的方法来定位失败原因,将「评估结果」与「系统改进」有效连接起来。

    核心贡献

    针对上述挑战,这篇论文做出了开创性的贡献:

    1. 提出并定义新问题

    首次将「自动化失败归因」形式化为一个具体的研究任务,明确了要找出导致失败的 责任Agent (failure-responsible agent) 决定性错误步骤 (decisive error step)

    2. 构建首个数据集——Who&When

    该数据集包含了从 127个LLMMulti-Agent系统 中收集的广泛失败日志。这些系统既有 算法 自动生成的 ,也有 人类专家精心打造的 ,确保了场景的真实性和多样性。

    每条失败日志都配有 细粒度的人工标注

    • (Who) 哪个Agent是「罪魁祸首」。

    • 何时 (When) 决定性错误发生在交互的哪一步。

    • 为何 (Why) 对失败原因的自然语言解释。

    标注关键错误代理以及确定出错的具体步骤,对普通人和领域专家来说都是一项挑战。

    注释者需要解析复杂的日志,理清每个代理的解决问题逻辑,并判断每个动作是正确的,还是会误导整个问题解决过程。







    请到「今天看啥」查看全文