正文
结果显示,当 Claude 3.7 在基准测试的“航空”和“零售”客户服务领域有效运用“思考”工具时,性能获得了显著提升:
我们最终选择了使用 Anthropic 的工具方案,让模型思考和规划。
原因是 OpenAI 并不是单纯通过 Prompt 指令让模型规划,他们还通过后训练让模型严格遵循这一指令
。
而我们使用开源模型,没有经过微调的话,指令遵循的效果肯定会打折,而以工具的形式能够提升遵循能力:
1.模型调用工具有固定的格式,例如参数的 thought, plan, action,通过工具调用能够让模型以更结构化的方式输出,不会遗漏;
2.「调用xx工具」是一个可明确执行和评判的指令,而「做一个规划」是一个模糊的指令,相对来说以工具的形式指令遵循效果更好,尤其是在复杂 prompt 和多工具的场景。
当然类 manus 的方案通过链路工程让规划和执行分离(如下图),Agent 系统的规划和遵循规划的能力肯定会更好,尤其是针对15分钟甚至30分钟以上的长程任务。但是不是所有场景都需要类 manus 的长程任务规划,我在这里介绍的方案比较轻量,适用于快速任务(期望完成任务的时间较短)。
OpenManus 架构,planning 和 Agent 执行隔离
在蚂蚁集团内部的 Agent 平台:
这里以我们内部 Agent 平台为示例介绍如何实现,了解原理之后用 LangChain 或者市面上的 Agent 平台也能复现。
目前 DeepSeek V3 Function Call 模型在规划和工具调用方面能力是较强的。
生成多样性参数建议配置为0.3
请使用端到端模式,在该模式下,用户输入 query 之后,系统会循环调用模型,由模型决策使用工具或者直接回复。在以下两种情况会停止循环:
1.模型不再调用工具,而是直接回复;
2.模型调用次数(不是工具调用次数)达到设置的上限。
端到端的循环模式