主要观点总结
本文介绍了Anthropic公司如何构建多智能体研究系统,揭示了Claude深度研究模式背后的工程奇迹。文章深入分析了多智能体协作的架构设计、提示工程的巧妙应用以及从原型到生产的技术挑战,提供了构建智能系统的详细指导。通过具体例子,文章展示了多智能体系统比单智能体更强,面对复杂任务时,多智能体系统通过并行执行子任务,极大提升了处理速度和信息完整性。文章还探讨了如何设计提示词、评估智能体系统、保证系统稳定性等关键问题,并提供了额外的技巧与建议。
关键观点总结
关键观点1: 多智能体协作的架构设计
文章深入分析了多智能体协作的架构设计,包括角色划分、工作方式、提示词工程等,为构建智能系统提供了详细的指导。
关键观点2: 多智能体系统的优势
面对复杂任务时,多智能体系统通过并行执行子任务,极大提升了处理速度和信息完整性,相比单智能体表现出更强的能力。
关键观点3: 提示词工程
文章探讨了如何设计提示词,使智能体能够像人类一样进行协作,包括考虑任务复杂度、资源分配、工具选择等,以及如何让智能体自我改进。
关键观点4: 评估智能体系统
文章讨论了如何评估多智能体系统,包括使用LLM评审、人工评估以及考虑涌现行为等,以确保系统能够稳定可靠地运行。
关键观点5: 生产级稳定性与工程挑战
文章探讨了构建多智能体系统时面临的生产级稳定性与工程挑战,包括错误处理、调试、部署等问题,并给出了相应的解决方案。
正文
显式引导思考过程
:使用思维模式输出结构,提升稳定性。
全流程并行执行
:3-5 个子智能体并行 + 每个子体多工具并行,大幅加速任务完成速度。
这些原则背后不是“模板”,而是一整套
研究性认知流程的压缩模型
。
技术背后的另一面:
这些“工程细节”决定了系统能不能上线
很多“AI 系统”都卡在 demo 阶段,是因为缺乏对复杂性处理的能力。
Anthropic 做了几个关键设计,让这套系统真正能上线使用:
-
智能体崩溃不等于任务失败
:如果一个子智能体出错,系统会中断恢复,而不是整组任务报废
-
升级版本用“彩虹部署”
:确保已有任务不受影响,逐步迁移新版本
-
任务之间不能互相干扰
:每个子任务的上下文和行为被隔离管理
-
不会记录用户私密信息,但保留系统决策轨迹
:方便追踪智能体行为,但不触碰隐私
他们还提到:这类系统“烧 token 烧得很快”,一个多智能体任务可能消耗普通聊天任务 15 倍以上的资源。
所以,这类系统必须应用在“足够有价值的任务”中,比如投资研究、医学方案分析、商业信息搜集等。
所以,这个系统到底适合干嘛?
目前,这套系统主要用在几类任务中:
-
商业研究 / 投资分析
:企业画像、投融资追踪、竞争对手拆解等
-
信息验证 / 合规查证
:比如人物背景调查、文献追踪、事实校验
-
辅助写作 / 内容策划
:比如长篇内容生成、查找引用文献、构建信息大纲
Anthropic 给的数据中,最常见的使用场景是“为复杂领域构建系统化知识材料”,比如为某个医疗话题写背景研究、为某个技术方向整理论文脉络。
一句话总结:如果你问的问题“不是一句话能回答的”,它就很可能适合多智能体系统来完成。
Claude Research 系统的实际价值反馈
Anthropic 收集的用户数据中,有 5 类场景使用最频繁:
-
专业内容撰写与优化
-
市场调研与增长策略
-
学术研究支持
-
软件系统架构建议
-
多平台信息验证与交叉比对
部分用户甚至表示:这类 AI 研究系统帮他们节省了“本该花上几天的工作”。
写在最后
AI 模型已经很强大了,但人类解决复杂问题,从来不是靠一个“最聪明的大脑”,而是靠一个
分工协作的组织系统
。
Anthropic 做的事,归根到底不是做出更强的 Claude,而是:
他们在用“组织行为学”的方式来重塑 AI 的使用范式。
不是让一个模型做一切,而是让多个模型“像人一样工作”:有分工、有节奏、有边界、有策略、有反馈。
这比模型本身的升级更有启发性。
如果我们把 AI 看成“合作者”而非“回答机器”,或许真正的 AI 工作方式,并不是 prompt → 输出,而是:
目标 → 拆解 → 组织 → 调度 → 输出 → 归因
这,不就是我们人类解决问题的方式吗?
Anthropic:我们是如何构建多智能体研究系统的
Claude 现在具备了研究能力,能够跨网页、Google Workspace 和各类集成工具进行搜索,从而完成复杂任务。
这个多智能体系统从原型走向生产阶段的过程,让我们在系统架构、工具设计和提示词工程方面学到了至关重要的经验。一个多智能体系统由多个智能体(即在循环中自主调用工具的 LLM)协同工作组成。我们的 Research 功能包括一个负责制定研究流程的主控智能体,它会根据用户查询调用工具,并创建多个并行的子智能体同时搜索信息。多智能体系统带来了新的挑战,比如智能体间的协调、评估和可靠性保障。
这篇文章分解了我们总结出的有效原则——希望它们对你构建自己的多智能体系统时有所帮助。
多智能体系统的优势
研究类任务本质上是开放式问题,很难事先预测需要哪些步骤。你无法为探索复杂主题预设一条固定路径,因为研究过程是动态的、依赖于每一步发现的线索的。
当人类进行研究时,他们会根据新的发现不断调整策略,追踪在探索中浮现出的线索。
这种不可预测性使得 AI 智能体在研究任务中尤其适用。研究需要灵活性,要能在探索过程中转向或延伸至相关方向。模型必须在多个回合中自主决策,基于中间成果判断接下来要走哪条路。线性的一次性流水线方案无法胜任这类任务。
搜索的本质是压缩:从海量语料中提取出有价值的见解。子智能体通过并行运行、拥有各自的上下文窗口,同时探索问题的不同方面,再将最重要的 token 汇总给主控研究智能体,极大促进了信息压缩的效率。每个子智能体还可实现关注点的分离——使用不同的工具、提示词和探索路径——从而降低路径依赖、增强研究的独立性和完整性。
一旦模型智能达到某一临界点,多智能体系统就成为扩展性能的关键方式。例如,在过去十万年中,个体人类的智能虽有提升,但进入信息时代后,人类社会的整体能力实现了指数级增长,这得益于“集体智能”与协调能力。即使是通用智能体,作为个体也有极限;成群智能体协作可以实现远超单体能力的成就。
我们的内部评估表明:在需要同时追踪多个独立方向的“广度优先”查询中,多智能体系统的表现尤为出色。我们发现,在以 Claude Opus 4 为主控智能体、Claude Sonnet 4 为子智能体的系统中,整体性能相比单智能体 Claude Opus 4 提高了 90.2%。比如在查询“信息技术类 S&P 500 公司所有董事会成员”时,多智能体系统能将任务拆解分派给多个子智能体并行处理,而单智能体系统则只能顺序检索,效率低且结果不全。
多智能体系统之所以有效,是因为它们能在任务上“烧掉”足够多的 token。在我们对 BrowseComp(测试智能体查找难找信息能力)的分析中,影响性能的三个关键因素解释了 95% 的方差——其中“使用的 token 数量”单独就解释了 80% 的差异,另外两个是工具调用次数与模型选择。这验证了我们通过分布式架构设计提升 token 使用效率的策略,即利用不同上下文窗口的子智能体来提升并行推理能力。Claude 最新模型更进一步地提高了 token 使用效率:将 Sonnet 3.7 升级为 Sonnet 4,效果甚至优于直接翻倍 token 上限。多智能体架构能在超过单智能体处理能力的任务中充分发挥 token 预算的作用。
但也存在缺点:这种架构在实践中非常“烧 token”。我们的数据表明,一个普通的智能体交互平均消耗的 token 是一次聊天的 4 倍,而一个多智能体系统的 token 消耗大约是聊天的 15 倍。为了在经济上可行,多智能体系统必须应用在价值足够高的任务上,才能抵消性能带来的成本。此外,如果某个任务领域要求所有智能体共享完整上下文,或者智能体间存在大量强耦合依赖,那么目前的多智能体系统也并不适用。例如,大多数编程任务中并没有太多可并行处理的子任务,而 LLM 智能体目前还不擅长实时协作与分工。我们发现,多智能体系统最适合高价值、强并行、上下文超出单一窗口、以及需要与复杂工具交互的场景。
Research 架构概览
我们的 Research 系统采用多智能体架构,使用“协调者-工作者”模式,即主控智能体负责整体协调,而多个专职子智能体并行执行任务。