ACL 2025 | 大模型乱试错、盲调用？KnowSelf让智能体有「知识边界感知」能力

机器之心 · 公众号 · AI · 2025-05-21 16:04

主要观点总结

该文章介绍了ACL 2025的一篇论文《Agentic Knowledgeable Self-awareness》，该论文旨在提升大模型智能体的“知识边界感知”能力，使其在面对复杂任务规划时更加可靠。文章主要介绍了论文的研究背景、核心方法、实验成果以及展望。

关键观点总结

关键观点1: 研究背景

介绍了大模型智能体在决策过程中面临的挑战，即缺乏自我认知的能力，导致在面对意外信号时容易崩溃，陷入模式崩塌困境，且过度试错和盲目知识融合会导致成本增加。

关键观点2: 核心方法

提出了智能体“知识边界感知”的思路，并设计了数据驱动KnowSelf方法，让大模型智能体能够自主调节知识的运用。

关键观点3: 知识系统构建

介绍了论文中知识系统的构建方式，包括外部工具（知识）的收集方法、知识库和知识选择模块的设计。

关键观点4: 情境判断标准

将情境划分为三类：快速思考、慢速思考、知识型思考，并提出了启发式情境判断标准。

关键观点5: 自我认知训练

介绍KnowSelf采用的自我认知训练方式，包括监督式微调（SFT）和引入RPO损失函数强化自我认知能力。

关键观点6: 实验成果

在模拟大模型智能体规划数据集上的实验结果显示，KnowSelf性能优于多种基线方法。并进行了深入探索智能体自我认知的进一步分析。

关键观点7: 结论与展望

总结了论文的主要工作和成果，并展望了智能体规划的未来发展和基于RL的智能体自我认知的潜力。

正文

请到「今天看啥」查看全文

这种「无脑式」灌输导致智能体在面对意外信号时极易崩溃，陷入模式崩塌困境，且过度试错与盲目知识融合在实际场景中往往不可行，还会大幅推高模型推理成本。

人类在决策时，会根据面临的情境动态评估自身状态，灵活调整策略。比如，当我们遇到简单问题时，能迅速做出判断并行动；遇到棘手问题，会放慢思考节奏，深入分析；而面对超出自身能力范围的问题，会主动寻求外部知识或帮助。

然而，当前大模型智能体普遍缺乏这种「知识边界感知」能力，导致规划行为低效且脆弱。

核心方法：KnowSelf 框架

为破解这一难题，论文提出了智能体「知识边界感知」的思路，并基于此设计了数据驱动 KnowSelf 方法，让大模型智能体能够自主调节知识的运用。

知识系统构建

对于外部工具（知识），并采用了一种简单高效知识收集方法，以极低成本完成知识库的离线构建。该知识系统由知识库和知识选择模块组成，其中知识库包含一系列知识条目，知识选择模块能依据智能体历史轨迹从知识库中精准挑选所需知识。这种设计兼顾了知识系统的实用性和高效性。

情境判断标准

论文基于智能体的能力，将情境划分为三类：快速思考（Fast Thinking）、慢速思考（Slow Thinking）和知识型思考（Knowledgeable Thinking）。并提出了启发式情境判断标准，用于标记智能体自我探索轨迹中的特殊标记，从而针对智能体的能力构建出训练数据，为后续训练奠定基础。