专栏名称: 小互AI

XiaoHu.AI-在小互AI学院（http://xiaohu.ai）学习如何让AI为你服务。加入小互AI学院，通过日常工作流AI教程、社群和1V1支持，学习如何使用AI。

Anthropic研究报告：揭秘 Claude 深度研究背后的秘密教你如何构建多智能体研究系统

小互AI · 公众号 · AI 科技媒体 · 2025-06-14 19:12

主要观点总结

本文介绍了Anthropic公司如何构建多智能体研究系统，揭示了Claude深度研究模式背后的工程奇迹。文章深入分析了多智能体协作的架构设计、提示工程的巧妙应用以及从原型到生产的技术挑战，提供了构建智能系统的详细指导。通过具体例子，文章展示了多智能体系统比单智能体更强，面对复杂任务时，多智能体系统通过并行执行子任务，极大提升了处理速度和信息完整性。文章还探讨了如何设计提示词、评估智能体系统、保证系统稳定性等关键问题，并提供了额外的技巧与建议。

关键观点总结

关键观点1: 多智能体协作的架构设计

文章深入分析了多智能体协作的架构设计，包括角色划分、工作方式、提示词工程等，为构建智能系统提供了详细的指导。

关键观点2: 多智能体系统的优势

面对复杂任务时，多智能体系统通过并行执行子任务，极大提升了处理速度和信息完整性，相比单智能体表现出更强的能力。

关键观点3: 提示词工程

文章探讨了如何设计提示词，使智能体能够像人类一样进行协作，包括考虑任务复杂度、资源分配、工具选择等，以及如何让智能体自我改进。

关键观点4: 评估智能体系统

文章讨论了如何评估多智能体系统，包括使用LLM评审、人工评估以及考虑涌现行为等，以确保系统能够稳定可靠地运行。

关键观点5: 生产级稳定性与工程挑战

文章探讨了构建多智能体系统时面临的生产级稳定性与工程挑战，包括错误处理、调试、部署等问题，并给出了相应的解决方案。

正文

请到「今天看啥」查看全文

显式引导思考过程 ：使用思维模式输出结构，提升稳定性。

全流程并行执行 ：3-5 个子智能体并行 + 每个子体多工具并行，大幅加速任务完成速度。

这些原则背后不是“模板”，而是一整套 研究性认知流程的压缩模型 。

技术背后的另一面：

这些“工程细节”决定了系统能不能上线

很多“AI 系统”都卡在 demo 阶段，是因为缺乏对复杂性处理的能力。

Anthropic 做了几个关键设计，让这套系统真正能上线使用：

智能体崩溃不等于任务失败 ：如果一个子智能体出错，系统会中断恢复，而不是整组任务报废
升级版本用“彩虹部署” ：确保已有任务不受影响，逐步迁移新版本
任务之间不能互相干扰 ：每个子任务的上下文和行为被隔离管理
不会记录用户私密信息，但保留系统决策轨迹 ：方便追踪智能体行为，但不触碰隐私

他们还提到：这类系统“烧 token 烧得很快”，一个多智能体任务可能消耗普通聊天任务 15 倍以上的资源。

所以，这类系统必须应用在“足够有价值的任务”中，比如投资研究、医学方案分析、商业信息搜集等。

所以，这个系统到底适合干嘛？

目前，这套系统主要用在几类任务中：

商业研究 / 投资分析 ：企业画像、投融资追踪、竞争对手拆解等
信息验证 / 合规查证 ：比如人物背景调查、文献追踪、事实校验
辅助写作 / 内容策划 ：比如长篇内容生成、查找引用文献、构建信息大纲

Anthropic 给的数据中，最常见的使用场景是“为复杂领域构建系统化知识材料”，比如为某个医疗话题写背景研究、为某个技术方向整理论文脉络。

一句话总结：如果你问的问题“不是一句话能回答的”，它就很可能适合多智能体系统来完成。

Claude Research 系统的实际价值反馈

Anthropic 收集的用户数据中，有 5 类场景使用最频繁：

专业内容撰写与优化
市场调研与增长策略
学术研究支持
软件系统架构建议
多平台信息验证与交叉比对

部分用户甚至表示：这类 AI 研究系统帮他们节省了“本该花上几天的工作”。

写在最后

AI 模型已经很强大了，但人类解决复杂问题，从来不是靠一个“最聪明的大脑”，而是靠一个 分工协作的组织系统 。

Anthropic 做的事，归根到底不是做出更强的 Claude，而是：

他们在用“组织行为学”的方式来重塑 AI 的使用范式。

不是让一个模型做一切，而是让多个模型“像人一样工作”：有分工、有节奏、有边界、有策略、有反馈。

这比模型本身的升级更有启发性。

如果我们把 AI 看成“合作者”而非“回答机器”，或许真正的 AI 工作方式，并不是 prompt → 输出，而是：

目标 → 拆解 → 组织 → 调度 → 输出 → 归因

这，不就是我们人类解决问题的方式吗？

完整研究报告翻译

Anthropic：我们是如何构建多智能体研究系统的

Claude 现在具备了研究能力，能够跨网页、Google Workspace 和各类集成工具进行搜索，从而完成复杂任务。

这个多智能体系统从原型走向生产阶段的过程，让我们在系统架构、工具设计和提示词工程方面学到了至关重要的经验。一个多智能体系统由多个智能体（即在循环中自主调用工具的 LLM）协同工作组成。我们的 Research 功能包括一个负责制定研究流程的主控智能体，它会根据用户查询调用工具，并创建多个并行的子智能体同时搜索信息。多智能体系统带来了新的挑战，比如智能体间的协调、评估和可靠性保障。

这篇文章分解了我们总结出的有效原则——希望它们对你构建自己的多智能体系统时有所帮助。

多智能体系统的优势

研究类任务本质上是开放式问题，很难事先预测需要哪些步骤。你无法为探索复杂主题预设一条固定路径，因为研究过程是动态的、依赖于每一步发现的线索的。

当人类进行研究时，他们会根据新的发现不断调整策略，追踪在探索中浮现出的线索。

这种不可预测性使得 AI 智能体在研究任务中尤其适用。研究需要灵活性，要能在探索过程中转向或延伸至相关方向。模型必须在多个回合中自主决策，基于中间成果判断接下来要走哪条路。线性的一次性流水线方案无法胜任这类任务。

搜索的本质是压缩：从海量语料中提取出有价值的见解。子智能体通过并行运行、拥有各自的上下文窗口，同时探索问题的不同方面，再将最重要的 token 汇总给主控研究智能体，极大促进了信息压缩的效率。每个子智能体还可实现关注点的分离——使用不同的工具、提示词和探索路径——从而降低路径依赖、增强研究的独立性和完整性。

一旦模型智能达到某一临界点，多智能体系统就成为扩展性能的关键方式。例如，在过去十万年中，个体人类的智能虽有提升，但进入信息时代后，人类社会的整体能力实现了指数级增长，这得益于“集体智能”与协调能力。即使是通用智能体，作为个体也有极限；成群智能体协作可以实现远超单体能力的成就。

我们的内部评估表明：在需要同时追踪多个独立方向的“广度优先”查询中，多智能体系统的表现尤为出色。我们发现，在以 Claude Opus 4 为主控智能体、Claude Sonnet 4 为子智能体的系统中，整体性能相比单智能体 Claude Opus 4 提高了 90.2%。比如在查询“信息技术类 S&P 500 公司所有董事会成员”时，多智能体系统能将任务拆解分派给多个子智能体并行处理，而单智能体系统则只能顺序检索，效率低且结果不全。

多智能体系统之所以有效，是因为它们能在任务上“烧掉”足够多的 token。在我们对 BrowseComp（测试智能体查找难找信息能力）的分析中，影响性能的三个关键因素解释了 95% 的方差——其中“使用的 token 数量”单独就解释了 80% 的差异，另外两个是工具调用次数与模型选择。这验证了我们通过分布式架构设计提升 token 使用效率的策略，即利用不同上下文窗口的子智能体来提升并行推理能力。Claude 最新模型更进一步地提高了 token 使用效率：将 Sonnet 3.7 升级为 Sonnet 4，效果甚至优于直接翻倍 token 上限。多智能体架构能在超过单智能体处理能力的任务中充分发挥 token 预算的作用。

但也存在缺点：这种架构在实践中非常“烧 token”。我们的数据表明，一个普通的智能体交互平均消耗的 token 是一次聊天的 4 倍，而一个多智能体系统的 token 消耗大约是聊天的 15 倍。为了在经济上可行，多智能体系统必须应用在价值足够高的任务上，才能抵消性能带来的成本。此外，如果某个任务领域要求所有智能体共享完整上下文，或者智能体间存在大量强耦合依赖，那么目前的多智能体系统也并不适用。例如，大多数编程任务中并没有太多可并行处理的子任务，而 LLM 智能体目前还不擅长实时协作与分工。我们发现，多智能体系统最适合高价值、强并行、上下文超出单一窗口、以及需要与复杂工具交互的场景。

Research 架构概览

我们的 Research 系统采用多智能体架构，使用“协调者-工作者”模式，即主控智能体负责整体协调，而多个专职子智能体并行执行任务。

Anthropic研究报告：揭秘 Claude 深度研究背后的秘密 教你如何构建多智能体研究系统

主要观点总结

关键观点总结

关键观点1: 多智能体协作的架构设计

关键观点2: 多智能体系统的优势

关键观点3: 提示词工程

关键观点4: 评估智能体系统

关键观点5: 生产级稳定性与工程挑战

正文

请到「今天看啥」查看全文

技术背后的另一面：

这些“工程细节”决定了系统能不能上线

所以，这个系统到底适合干嘛？

Claude Research 系统的实际价值反馈

写在最后

多智能体系统的优势

Research 架构概览

请到「今天看啥」查看全文

Anthropic研究报告：揭秘 Claude 深度研究背后的秘密教你如何构建多智能体研究系统