专栏名称: 阿里云开发者
阿里巴巴官方技术号,关于阿里的技术创新均将呈现于此
目录
相关文章推荐
51好读  ›  专栏  ›  阿里云开发者

如何让 Agent 规划调用工具

阿里云开发者  · 公众号  · 科技公司  · 2025-05-22 08:30

正文

请到「今天看啥」查看全文


结果显示,当 Claude 3.7 在基准测试的“航空”和“零售”客户服务领域有效运用“思考”工具时,性能获得了显著提升:

  • 航空领域:经过优化的"think"工具在 pass^1 指标上达到了 0.570,而基线仅为 0.370——相对提升了 54%;

  • 零售领域:单独使用“think”工具达到了 0.812,而基线为 0.783。

我们选择的方案

我们最终选择了使用 Anthropic 的工具方案,让模型思考和规划。 原因是 OpenAI 并不是单纯通过 Prompt 指令让模型规划,他们还通过后训练让模型严格遵循这一指令 而我们使用开源模型,没有经过微调的话,指令遵循的效果肯定会打折,而以工具的形式能够提升遵循能力:

1.模型调用工具有固定的格式,例如参数的 thought, plan, action,通过工具调用能够让模型以更结构化的方式输出,不会遗漏;

2.「调用xx工具」是一个可明确执行和评判的指令,而「做一个规划」是一个模糊的指令,相对来说以工具的形式指令遵循效果更好,尤其是在复杂 prompt 和多工具的场景。

当然类 manus 的方案通过链路工程让规划和执行分离(如下图),Agent 系统的规划和遵循规划的能力肯定会更好,尤其是针对15分钟甚至30分钟以上的长程任务。但是不是所有场景都需要类 manus 的长程任务规划,我在这里介绍的方案比较轻量,适用于快速任务(期望完成任务的时间较短)。

OpenManus 架构,planning 和 Agent 执行隔离

在蚂蚁集团内部的 Agent 平台:


Agent 实现

这里以我们内部 Agent 平台为示例介绍如何实现,了解原理之后用 LangChain 或者市面上的 Agent 平台也能复现。

选择恰当的模型

目前 DeepSeek V3 Function Call 模型在规划和工具调用方面能力是较强的。

生成多样性参数建议配置为0.3

请使用端到端模式,在该模式下,用户输入 query 之后,系统会循环调用模型,由模型决策使用工具或者直接回复。在以下两种情况会停止循环:

1.模型不再调用工具,而是直接回复;

2.模型调用次数(不是工具调用次数)达到设置的上限。

端到端的循环模式







请到「今天看啥」查看全文