Claude 4 核心成员：2027 年，AI 将自动化几乎所有白领工作 | 万字对谈

APPSO · 公众号 · app · 2025-05-31 11:57

正文

请到「今天看啥」查看全文

主持人：这期播客上线时，Claude 4 肯定已经发布了，大家应该已经开始体验它了。我很好奇，你是最早接触这些模型的人之一，哪方面最让你兴奋？

Douglas: 这确实是软件工程上的又一次飞跃。Opus 模型真的在这方面表现得非常出色。我经常会遇到这样的时刻：我向它提出一个非常复杂的任务，涉及我们庞大的代码库，它居然能 几乎完全自主地完成任务 。它会自己去查找信息、理解需求、运行测试，整个过程非常独立高效。每次看到这种表现，我都觉得震撼。

主持人：每次有新一代模型出来，我们都得重新调整自己的认知模型，去判断什么方法有效，什么不行。你在编程中对这些模型的使用和理解有发生什么变化吗？

Douglas: 最大的变化我觉得是时间跨度（time horizon）方面的提升。我觉得可以从两个维度来理解模型能力的提升：一个是任务的 智力复杂度 ，另一个是它们能够有意义地推理和处理的 上下文量 ，或者说连续动作的数量。这些模型在第二个维度上提升特别明显，它们真的能执行多步操作，判断需要从环境中获取哪些信息，然后基于这些信息采取行动。再加上它能调用工具，比如 Cloud Code，就不只是简单地复制粘贴了，执行力更强了。现在我能看到它连续工作好几个小时，效率相当于人类连续劳动。

主持人：那你觉得第一次使用 Claude 4 的人，应该从什么开始尝试？

Douglas: 我觉得最好的方式是直接让它参与到你的工作中。比如你今天打算写什么代码，就直接让它帮你做，观察它怎么判断信息、怎么决定下一步。我保证你会被它的表现惊艳到。

主持人：这代模型更强了，也有不少人打算用它来构建产品。你觉得对开发者来说，新的可能性在哪里？

Douglas: 我一直很喜欢「产品指数增长」（product exponential）这个说法。开发者需要 不断超前模型能力去构思产品 。像 Cursor、Windsurf、Devon 这些例子很典型。Cursor 在模型能力还不够强时，就已经开始构建未来编码体验，直到 Claude 3.5 和 Sonne 出现，他们的愿景才真正落地。而 Windsurf 更进一步，占据了部分市场。他们的成功就是抓住了这个指数增长窗口。

现在你可以看到 Claude Code、新的 GitHub 集成、OpenAI 的 Codecs、谷歌的编码代理等等，大家都在围绕「编码代理」这个概念发力，目标是实现更高的 自主性和异步操作 。未来，可能不再是你每分钟操作一次，而是你像管理一个 AI 模型舰队一样，多个模型各自承担任务并协同工作。我觉得这个方向非常值得探索。

主持人：你见过类似那种「多模型并行协作」的场景吗？会是什么样子？

Douglas: 我认识很多在 Anthropic 的朋友，他们会同时在不同环境里跑多个 Claude Code 实例，看起来挺酷的。但说实话，现在还没人真正搞清楚这种操作该怎么做。这其实是在探索人类的「管理带宽」（management bandwidth）能有多大。我觉得这是未来经济发展的关键问题之一：我们该如何衡量模型的生产力回报率？一开始我们还是得人工检查模型的输出，这意味着模型的影响力会被人类管理能力所限制。除非有一天我们可以信任模型去管理模型，这种抽象层级的升级会非常关键。

主持人：所以说，如果你是每 15 分钟检查一次模型，跟每小时、每 5 小时检查一次，那你能管理的模型数量会差很多？

Douglas: 对，黄仁勋说过类似的话。他说自己被十万个超级智能 AGI 包围着，拥有巨大的杠杆力。他还说自己是 Nvidia 管理链条上的「控制因子」。我觉得未来可能真会往这个方向发展。

主持人：说不定未来最重要的行业就是「组织设计」本身了。

Douglas: 对，包括如何建立信任、组织结构会有多复杂，这些都值得深入思考。

秘密武器：时间跨度拉长，RL驱动智能代理升级

主持人：你之前在 McKinsey 工作过一年，咨询行业是不是也可以基于这些模型发展出新产品线？我也挺认同你刚才说的：应用公司得比模型进步快一步。像 Cursor 起初产品落地难，但模型能力一到位就爆发了。那你觉得，「领先一步」具体意味着什么？

Douglas: 就是不断重塑你的产品，让它始终对接几个月后模型的最新能力。同时你还要保持和用户的紧密联系，确保产品已经在用，但还能吸收更先进的模型功能。

主持人：我觉得这个就是秘诀——如果你还在等模型再提升点再动手，别人可能已经把用户抢走了。你们在记忆、指令执行、工具使用这些方面都做了不少突破。你能简单总结一下目前各方面的进展吗？哪些成熟了，哪些还在探索？

Douglas: 一个理解过去一年进展的好方法是： 强化学习（RL） 终于在语言模型上真正发挥作用了。模型能解决的任务智力复杂度基本没有天花板，比如它们能搞定复杂的数学和编程问题。但这些任务大多在 受限上下文 里完成的。记忆和工具使用的挑战，其实在于扩大模型能感知和操作的上下文范围。

比如像 MCP（Model Context Protocol）这类机制，让模型可以与外部世界交互，记忆则让它处理更长时间跨度的任务，也带来了更个性化的体验。这些进展本质上都是在构建「智能代理」的关键能力链。顺便一提，宝可梦评测（Pokemon eval）就是一个挺有趣的实验方式。

主持人：我小时候可是游戏迷。我觉得这是个很棒的评测，希望你们能和这个模型一起发布。

Douglas: 确实，这次评测特别有趣。模型并没有专门训练玩宝可梦，但它依然能很好地完成任务，展现出很强的泛化能力。这种任务虽然不是完全陌生的，但和它以前做过的都不一样。

主持人：我还记得游戏里有很多阶梯和迷宫，模型也能帮你过关。

Douglas: 没错，我特别喜欢的另一个例子是我们最近做的「可解释性代理」。它原本是一个编程代理，但却能自动学习、使用神经元可视化工具、进行自我对话，试图理解模型内部结构。它甚至能通过一个叫「审计游戏」的安全评测——找到模型故意设置的错误点，自己生成假设、验证问题。这种工具+记忆下的泛化能力，真的非常精彩。

智能代理的命门：可靠性

主持人：听起来智能代理真的越来越强大了。你以前也说过， VA 代理的关键是「可靠性」 。你觉得我们现在在哪个阶段了？

Douglas: 从「在一定时间内的成功率」来看，我们已经进步很大了。虽然还没达到 100% 的稳定性，模型第一次尝试和多次尝试之间仍有差距。但从趋势上看，我们正在朝「专家级可靠性」稳定迈进。

主持人：那你觉得，什么情况会让你改变这种乐观的看法？

Douglas: 如果明年中模型在任务持续时间上遇到瓶颈，那值得警惕。比如，编程是个很好判断进展的领先指标——一旦它开始下滑，说明可能有结构性问题。当然，也可能是数据太稀缺，比如「像人一样用软件」这类任务训练起来很难。不过我们现在反而看到这类任务的惊人进展，所以整体看我还是很乐观。

主持人：那你觉得我什么时候能有一个「万能助手」，可以替我填写各种表格、上网查资料之类的？

Douglas: 「个人行政助理代理」是个热门话题啊，谁不想把琐事交给 AI 呢？不过这件事还真得看情况关键是模型有没有练习过类似情境。你不能随便找个人来做财务工作，对吧？但如果它是受过训练的「虚拟会计师」，那就靠谱多了。所以任务是否靠谱，很大程度取决于训练背景。如果进展顺利，今年底我们就能看到这些代理在浏览器里操作任务；明年基本就会成为标配。

主持人：挺令人期待的。你们模型在编程方面的表现这么突出，是特意优先训练的吗？现在大家一提 Anthropic，就会联想到「编程模型」。

Douglas: 确实。我们非常重视编程这个方向，因为它是加速AI自我研究的关键路径。我们也投入很多精力在衡量编程能力的进展上。可以说，我们就是刻意聚焦在这一块。

主持人：那这些代理现在已经在加速 AI 研究了吗？

Douglas: 在我看来，确实如此。它们显著提升了工程效率。就连我认识的一些顶尖工程师也说，在熟悉的领域里，效率提升了 1.5 倍；但在不熟悉的领域，比如新语言或生疏内容，提升甚至达到5倍。所以在「跨界」时，帮助更明显。关键在于：你是否认为我们现在的瓶颈是算力？如果不是，那让 AI 代理参与研究，相当于扩充了一整个研究团队，效率提升是数量级的。

主持人：我猜这些代理主要还在处理繁琐任务，帮你省下时间思考更重要的问题。那么它们什么时候能开始主动提出有价值的研究思路呢？

Douglas：现在主要还是做工程类任务，但已经开始有些创意冒头了。我不敢说三个月内会爆发，但两年内我们应该能看到它们提出越来越有趣的科学性想法。当然，这也取决于是否有良好的反馈机制。就像人一样，模型也需要通过练习和试错，在复杂任务中掌握知识，最终实现高质量产出。