专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
Hacking4fun  ·  MCP is all you need ·  21 小时前  
上海市儿童医院  ·  深化国际合作 ... ·  昨天  
上海市儿童医院  ·  深化国际合作 ... ·  昨天  
河南省文化和旅游厅  ·  一场文明溯源之旅!“沿着中原大遗址走廊寻国宝 ... ·  昨天  
河南省文化和旅游厅  ·  一场文明溯源之旅!“沿着中原大遗址走廊寻国宝 ... ·  昨天  
金华晚报  ·  快讯!金华这些高速入口将暂时关闭! ·  2 天前  
YNTV2都市条形码  ·  它会自燃!10秒就能飙到475℃,家里有的快自查 ·  3 天前  
51好读  ›  专栏  ›  我爱计算机视觉

无需上下文,MCP新机制让大模型主动“提需”:节约 98% token 开销,并保持准确率基本不变!

我爱计算机视觉  · 公众号  ·  · 2025-06-11 23:10

正文

请到「今天看啥」查看全文


此外,本文也基于官方的 MCP 仓库,整理了现有的所有MCP servers信息,经过筛选得到 308 个服务器、2797 个工具,并结构化保存为统一的 json 格式,发布 MCP-tools 数据集。所提出的方法能够从数据集的全量工具中,更有效地通过“大海捞针”压力测试,同时大幅缩减上下文开销;在开源的评测集 APIbank 上, 该方法能够节约 98% token 开销,并保持准确率基本不变

现有工作的问题

当前基于 MCP 的工具调用流程存在显著缺陷:系统会将全部工具信息注入到模型的 system prompt 中,造成严重的上下文负担。以 Github MCP Server 为例,仅该服务器便包含 26 个工具功能,产生超过 4600 个 tokens 的上下文占用。这种实现方式不仅带来明显的成本压力,更对模型输出质量构成挑战——部分模型在处理长上下文时会出现性能显著劣化的现象。

为缓解上下文压力,既往研究采用预检索策略,仅筛选最匹配的一个或数个工具纳入上下文。具体实现中,模型利用用户输入与工具数据库进行匹配,识别最相关的工具子集。然而,此类方法面临两大挑战:

  • (1)基于分类器的方案需要针对性训练模型,面对新场景时泛化能力受限;

  • (2)基于语义匹配的方案容易产生语义错配,因为用户表述与服务器文档描述存在差异(如"查找xx日的信息"与"基于时间条件检索"的表达不一致)。

更重要的是,预定义工具的策略还存在单次匹配的局限性:根据用户语义选定特定领域工具,一方面无法应对复杂任务(比如用户要求"调试某个文件",实际需要代码修改、文件保存、命令执行等多个工具协同,单一工具匹配无法满足需求);另一方面,一旦工具匹配出现偏差,后续补救机制缺失。

综合来看,现有方案均遵循"被动配置"的工作模式,未能充分发挥大模型"主动理解"的核心优势。一方面,大模型被动接受工具配置,只能在预设的工具范围内进行调用;另一方面,当工具配置出现问题时,大模型缺乏主动询问、切换工具域的能力,缺少主动的错误处理机制。

本工作的流程

我们希望释放大模型的"主动决策"能力,摆脱传统方法中将模型局限在预设工具范围内的束缚,并节约上下文空间。为此,我们从如下两方面展开改进:

  • 主动工具发现 :大模型不再局限于"从既定工具中挑选"的模式,而是转向"主动表达所需工具"的新范式,不受上下文限制。
  • 主动多轮交互 :大模型能够采用多轮调用策略,每轮专注解决特定子任务,更贴合实际工具调用的应用特征。同时,当调用结果或返回工具存在问题时,大模型能够及时识别异常,启动新的尝试循环。

方法具体内容







请到「今天看啥」查看全文