专栏名称: 小互AI
XiaoHu.AI-在小互AI学院(http://xiaohu.ai)学习如何让AI为你服务。加入小互AI学院,通过日常工作流AI教程、社群和1V1支持,学习如何使用AI。
目录
相关文章推荐
宝玉xp  ·  转译:为什么生成式 AI ... ·  23 小时前  
机器学习研究组订阅  ·  DeepSeek-R1编程问鼎,媲美Clau ... ·  昨天  
AI科技大本营  ·  MiniMax重磅开源M1模型:百万上下文超 ... ·  昨天  
AI科技大本营  ·  MiniMax重磅开源M1模型:百万上下文超 ... ·  昨天  
新浪科技  ·  【#格力钛回应18.06亿股权被冻结#:原实 ... ·  2 天前  
51好读  ›  专栏  ›  小互AI

Anthropic研究报告:揭秘 Claude 深度研究背后的秘密 教你如何构建多智能体研究系统

小互AI  · 公众号  · AI 科技媒体  · 2025-06-14 19:12

主要观点总结

本文介绍了Anthropic公司如何构建多智能体研究系统,揭示了Claude深度研究模式背后的工程奇迹。文章深入分析了多智能体协作的架构设计、提示工程的巧妙应用以及从原型到生产的技术挑战,提供了构建智能系统的详细指导。通过具体例子,文章展示了多智能体系统比单智能体更强,面对复杂任务时,多智能体系统通过并行执行子任务,极大提升了处理速度和信息完整性。文章还探讨了如何设计提示词、评估智能体系统、保证系统稳定性等关键问题,并提供了额外的技巧与建议。

关键观点总结

关键观点1: 多智能体协作的架构设计

文章深入分析了多智能体协作的架构设计,包括角色划分、工作方式、提示词工程等,为构建智能系统提供了详细的指导。

关键观点2: 多智能体系统的优势

面对复杂任务时,多智能体系统通过并行执行子任务,极大提升了处理速度和信息完整性,相比单智能体表现出更强的能力。

关键观点3: 提示词工程

文章探讨了如何设计提示词,使智能体能够像人类一样进行协作,包括考虑任务复杂度、资源分配、工具选择等,以及如何让智能体自我改进。

关键观点4: 评估智能体系统

文章讨论了如何评估多智能体系统,包括使用LLM评审、人工评估以及考虑涌现行为等,以确保系统能够稳定可靠地运行。

关键观点5: 生产级稳定性与工程挑战

文章探讨了构建多智能体系统时面临的生产级稳定性与工程挑战,包括错误处理、调试、部署等问题,并给出了相应的解决方案。


正文

请到「今天看啥」查看全文


  • 显式引导思考过程 :使用思维模式输出结构,提升稳定性。

  • 全流程并行执行 :3-5 个子智能体并行 + 每个子体多工具并行,大幅加速任务完成速度。

  • 这些原则背后不是“模板”,而是一整套 研究性认知流程的压缩模型

    技术背后的另一面:

    这些“工程细节”决定了系统能不能上线

    很多“AI 系统”都卡在 demo 阶段,是因为缺乏对复杂性处理的能力。

    Anthropic 做了几个关键设计,让这套系统真正能上线使用:

    • 智能体崩溃不等于任务失败 :如果一个子智能体出错,系统会中断恢复,而不是整组任务报废

    • 升级版本用“彩虹部署” :确保已有任务不受影响,逐步迁移新版本

    • 任务之间不能互相干扰 :每个子任务的上下文和行为被隔离管理

    • 不会记录用户私密信息,但保留系统决策轨迹 :方便追踪智能体行为,但不触碰隐私

    他们还提到:这类系统“烧 token 烧得很快”,一个多智能体任务可能消耗普通聊天任务 15 倍以上的资源。

    所以,这类系统必须应用在“足够有价值的任务”中,比如投资研究、医学方案分析、商业信息搜集等。

    所以,这个系统到底适合干嘛?

    目前,这套系统主要用在几类任务中:

    • 商业研究 / 投资分析 :企业画像、投融资追踪、竞争对手拆解等

    • 信息验证 / 合规查证 :比如人物背景调查、文献追踪、事实校验

    • 辅助写作 / 内容策划 :比如长篇内容生成、查找引用文献、构建信息大纲

    Anthropic 给的数据中,最常见的使用场景是“为复杂领域构建系统化知识材料”,比如为某个医疗话题写背景研究、为某个技术方向整理论文脉络。

    一句话总结:如果你问的问题“不是一句话能回答的”,它就很可能适合多智能体系统来完成。

    Claude Research 系统的实际价值反馈

    Anthropic 收集的用户数据中,有 5 类场景使用最频繁:

    1. 专业内容撰写与优化

    2. 市场调研与增长策略

    3. 学术研究支持

    4. 软件系统架构建议

    5. 多平台信息验证与交叉比对

    部分用户甚至表示:这类 AI 研究系统帮他们节省了“本该花上几天的工作”。

    写在最后

    AI 模型已经很强大了,但人类解决复杂问题,从来不是靠一个“最聪明的大脑”,而是靠一个 分工协作的组织系统

    Anthropic 做的事,归根到底不是做出更强的 Claude,而是:

    他们在用“组织行为学”的方式来重塑 AI 的使用范式。

    不是让一个模型做一切,而是让多个模型“像人一样工作”:有分工、有节奏、有边界、有策略、有反馈。

    这比模型本身的升级更有启发性。

    如果我们把 AI 看成“合作者”而非“回答机器”,或许真正的 AI 工作方式,并不是 prompt → 输出,而是:

    目标 → 拆解 → 组织 → 调度 → 输出 → 归因

    这,不就是我们人类解决问题的方式吗?



    完整研究报告翻译

    Anthropic:我们是如何构建多智能体研究系统的

    Claude 现在具备了研究能力,能够跨网页、Google Workspace 和各类集成工具进行搜索,从而完成复杂任务。

    这个多智能体系统从原型走向生产阶段的过程,让我们在系统架构、工具设计和提示词工程方面学到了至关重要的经验。一个多智能体系统由多个智能体(即在循环中自主调用工具的 LLM)协同工作组成。我们的 Research 功能包括一个负责制定研究流程的主控智能体,它会根据用户查询调用工具,并创建多个并行的子智能体同时搜索信息。多智能体系统带来了新的挑战,比如智能体间的协调、评估和可靠性保障。

    这篇文章分解了我们总结出的有效原则——希望它们对你构建自己的多智能体系统时有所帮助。

    多智能体系统的优势

    研究类任务本质上是开放式问题,很难事先预测需要哪些步骤。你无法为探索复杂主题预设一条固定路径,因为研究过程是动态的、依赖于每一步发现的线索的。

    当人类进行研究时,他们会根据新的发现不断调整策略,追踪在探索中浮现出的线索。

    这种不可预测性使得 AI 智能体在研究任务中尤其适用。研究需要灵活性,要能在探索过程中转向或延伸至相关方向。模型必须在多个回合中自主决策,基于中间成果判断接下来要走哪条路。线性的一次性流水线方案无法胜任这类任务。

    搜索的本质是压缩:从海量语料中提取出有价值的见解。子智能体通过并行运行、拥有各自的上下文窗口,同时探索问题的不同方面,再将最重要的 token 汇总给主控研究智能体,极大促进了信息压缩的效率。每个子智能体还可实现关注点的分离——使用不同的工具、提示词和探索路径——从而降低路径依赖、增强研究的独立性和完整性。

    一旦模型智能达到某一临界点,多智能体系统就成为扩展性能的关键方式。例如,在过去十万年中,个体人类的智能虽有提升,但进入信息时代后,人类社会的整体能力实现了指数级增长,这得益于“集体智能”与协调能力。即使是通用智能体,作为个体也有极限;成群智能体协作可以实现远超单体能力的成就。

    我们的内部评估表明:在需要同时追踪多个独立方向的“广度优先”查询中,多智能体系统的表现尤为出色。我们发现,在以 Claude Opus 4 为主控智能体、Claude Sonnet 4 为子智能体的系统中,整体性能相比单智能体 Claude Opus 4 提高了 90.2%。比如在查询“信息技术类 S&P 500 公司所有董事会成员”时,多智能体系统能将任务拆解分派给多个子智能体并行处理,而单智能体系统则只能顺序检索,效率低且结果不全。

    多智能体系统之所以有效,是因为它们能在任务上“烧掉”足够多的 token。在我们对 BrowseComp(测试智能体查找难找信息能力)的分析中,影响性能的三个关键因素解释了 95% 的方差——其中“使用的 token 数量”单独就解释了 80% 的差异,另外两个是工具调用次数与模型选择。这验证了我们通过分布式架构设计提升 token 使用效率的策略,即利用不同上下文窗口的子智能体来提升并行推理能力。Claude 最新模型更进一步地提高了 token 使用效率:将 Sonnet 3.7 升级为 Sonnet 4,效果甚至优于直接翻倍 token 上限。多智能体架构能在超过单智能体处理能力的任务中充分发挥 token 预算的作用。

    但也存在缺点:这种架构在实践中非常“烧 token”。我们的数据表明,一个普通的智能体交互平均消耗的 token 是一次聊天的 4 倍,而一个多智能体系统的 token 消耗大约是聊天的 15 倍。为了在经济上可行,多智能体系统必须应用在价值足够高的任务上,才能抵消性能带来的成本。此外,如果某个任务领域要求所有智能体共享完整上下文,或者智能体间存在大量强耦合依赖,那么目前的多智能体系统也并不适用。例如,大多数编程任务中并没有太多可并行处理的子任务,而 LLM 智能体目前还不擅长实时协作与分工。我们发现,多智能体系统最适合高价值、强并行、上下文超出单一窗口、以及需要与复杂工具交互的场景。

    Research 架构概览

    我们的 Research 系统采用多智能体架构,使用“协调者-工作者”模式,即主控智能体负责整体协调,而多个专职子智能体并行执行任务。







    请到「今天看啥」查看全文