专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  Cursor 1.0 发布 ·  10 小时前  
小众软件  ·  人类向着虚拟世界不断前行啊 ·  10 小时前  
小众软件  ·  Macxvideo AI 首发限免活动 ·  10 小时前  
APPSO  ·  全球首款 SDC 安卓内测福利 ·  昨天  
小众软件  ·  另外两件事[250603] ·  2 天前  
51好读  ›  专栏  ›  APPSO

Claude 4 核心成员:2027 年,AI 将自动化几乎所有白领工作 | 万字对谈

APPSO  · 公众号  · app  · 2025-05-31 11:57

正文

请到「今天看啥」查看全文


主持人:这期播客上线时,Claude 4 肯定已经发布了,大家应该已经开始体验它了。我很好奇,你是最早接触这些模型的人之一,哪方面最让你兴奋?
Douglas: 这确实是软件工程上的又一次飞跃。Opus 模型真的在这方面表现得非常出色。我经常会遇到这样的时刻:我向它提出一个非常复杂的任务,涉及我们庞大的代码库,它居然能 几乎完全自主地完成任务 。它会自己去查找信息、理解需求、运行测试,整个过程非常独立高效。每次看到这种表现,我都觉得震撼。
主持人:每次有新一代模型出来,我们都得重新调整自己的认知模型,去判断什么方法有效,什么不行。你在编程中对这些模型的使用和理解有发生什么变化吗?
Douglas: 最大的变化我觉得是时间跨度(time horizon)方面的提升。我觉得可以从两个维度来理解模型能力的提升:一个是任务的 智力复杂度 ,另一个是它们能够有意义地推理和处理的 上下文量 ,或者说连续动作的数量。这些模型在第二个维度上提升特别明显,它们真的能执行多步操作,判断需要从环境中获取哪些信息,然后基于这些信息采取行动。再加上它能调用工具,比如 Cloud Code,就不只是简单地复制粘贴了,执行力更强了。现在我能看到它连续工作好几个小时,效率相当于人类连续劳动。
主持人:那你觉得第一次使用 Claude 4 的人,应该从什么开始尝试?
Douglas: 我觉得最好的方式是直接让它参与到你的工作中。比如你今天打算写什么代码,就直接让它帮你做,观察它怎么判断信息、怎么决定下一步。我保证你会被它的表现惊艳到。
主持人:这代模型更强了,也有不少人打算用它来构建产品。你觉得对开发者来说,新的可能性在哪里?
Douglas: 我一直很喜欢「产品指数增长」(product exponential)这个说法。开发者需要 不断超前模型能力去构思产品 。像 Cursor、Windsurf、Devon 这些例子很典型。Cursor 在模型能力还不够强时,就已经开始构建未来编码体验,直到 Claude 3.5 和 Sonne 出现,他们的愿景才真正落地。而 Windsurf 更进一步,占据了部分市场。他们的成功就是抓住了这个指数增长窗口。
现在你可以看到 Claude Code、新的 GitHub 集成、OpenAI 的 Codecs、谷歌的编码代理等等,大家都在围绕「编码代理」这个概念发力,目标是实现更高的 自主性和异步操作 。未来,可能不再是你每分钟操作一次,而是你像管理一个 AI 模型舰队一样,多个模型各自承担任务并协同工作。我觉得这个方向非常值得探索。
主持人:你见过类似那种「多模型并行协作」的场景吗?会是什么样子?
Douglas: 我认识很多在 Anthropic 的朋友,他们会同时在不同环境里跑多个 Claude Code 实例,看起来挺酷的。但说实话,现在还没人真正搞清楚这种操作该怎么做。这其实是在探索人类的「管理带宽」(management bandwidth)能有多大。我觉得这是未来经济发展的关键问题之一:我们该如何衡量模型的生产力回报率?一开始我们还是得人工检查模型的输出,这意味着模型的影响力会被人类管理能力所限制。除非有一天我们可以信任模型去管理模型,这种抽象层级的升级会非常关键。
主持人:所以说,如果你是每 15 分钟检查一次模型,跟每小时、每 5 小时检查一次,那你能管理的模型数量会差很多?
Douglas: 对,黄仁勋说过类似的话。他说自己被十万个超级智能 AGI 包围着,拥有巨大的杠杆力。他还说自己是 Nvidia 管理链条上的「控制因子」。我觉得未来可能真会往这个方向发展。
主持人:说不定未来最重要的行业就是「组织设计」本身了。
Douglas: 对,包括如何建立信任、组织结构会有多复杂,这些都值得深入思考。
秘密武器:时间跨度拉长,RL驱动智能代理升级
主持人:你之前在 McKinsey 工作过一年,咨询行业是不是也可以基于这些模型发展出新产品线?我也挺认同你刚才说的:应用公司得比模型进步快一步。像 Cursor 起初产品落地难,但模型能力一到位就爆发了。那你觉得,「领先一步」具体意味着什么?
Douglas: 就是不断重塑你的产品,让它始终对接几个月后模型的最新能力。同时你还要保持和用户的紧密联系,确保产品已经在用,但还能吸收更先进的模型功能。
主持人:我觉得这个就是秘诀——如果你还在等模型再提升点再动手,别人可能已经把用户抢走了。你们在记忆、指令执行、工具使用这些方面都做了不少突破。你能简单总结一下目前各方面的进展吗?哪些成熟了,哪些还在探索?
Douglas: 一个理解过去一年进展的好方法是: 强化学习(RL) 终于在语言模型上真正发挥作用了。模型能解决的任务智力复杂度基本没有天花板,比如它们能搞定复杂的数学和编程问题。但这些任务大多在 受限上下文 里完成的。记忆和工具使用的挑战,其实在于扩大模型能感知和操作的上下文范围。
比如像 MCP(Model Context Protocol)这类机制,让模型可以与外部世界交互,记忆则让它处理更长时间跨度的任务,也带来了更个性化的体验。这些进展本质上都是在构建「智能代理」的关键能力链。顺便一提,宝可梦评测(Pokemon eval)就是一个挺有趣的实验方式。
主持人:我小时候可是游戏迷。我觉得这是个很棒的评测,希望你们能和这个模型一起发布。
Douglas: 确实,这次评测特别有趣。模型并没有专门训练玩宝可梦,但它依然能很好地完成任务,展现出很强的泛化能力。这种任务虽然不是完全陌生的,但和它以前做过的都不一样。
主持人:我还记得游戏里有很多阶梯和迷宫,模型也能帮你过关。
Douglas: 没错,我特别喜欢的另一个例子是我们最近做的「可解释性代理」。它原本是一个编程代理,但却能自动学习、使用神经元可视化工具、进行自我对话,试图理解模型内部结构。它甚至能通过一个叫「审计游戏」的安全评测——找到模型故意设置的错误点,自己生成假设、验证问题。这种工具+记忆下的泛化能力,真的非常精彩。
智能代理的命门:可靠性
主持人:听起来智能代理真的越来越强大了。你以前也说过, VA 代理的关键是「可靠性」 。你觉得我们现在在哪个阶段了?
Douglas: 从「在一定时间内的成功率」来看,我们已经进步很大了。虽然还没达到 100% 的稳定性,模型第一次尝试和多次尝试之间仍有差距。但从趋势上看,我们正在朝「专家级可靠性」稳定迈进。
主持人:那你觉得,什么情况会让你改变这种乐观的看法?
Douglas: 如果明年中模型在任务持续时间上遇到瓶颈,那值得警惕。比如,编程是个很好判断进展的领先指标——一旦它开始下滑,说明可能有结构性问题。当然,也可能是数据太稀缺,比如「像人一样用软件」这类任务训练起来很难。不过我们现在反而看到这类任务的惊人进展,所以整体看我还是很乐观。
主持人:那你觉得我什么时候能有一个「万能助手」,可以替我填写各种表格、上网查资料之类的?
Douglas: 「个人行政助理代理」是个热门话题啊,谁不想把琐事交给 AI 呢?不过这件事还真得看情况关键是模型有没有练习过类似情境。你不能随便找个人来做财务工作,对吧?但如果它是受过训练的「虚拟会计师」,那就靠谱多了。所以任务是否靠谱,很大程度取决于训练背景。如果进展顺利,今年底我们就能看到这些代理在浏览器里操作任务;明年基本就会成为标配。
主持人:挺令人期待的。你们模型在编程方面的表现这么突出,是特意优先训练的吗?现在大家一提 Anthropic,就会联想到「编程模型」。
Douglas: 确实。我们非常重视编程这个方向,因为它是加速AI自我研究的关键路径。我们也投入很多精力在衡量编程能力的进展上。可以说,我们就是刻意聚焦在这一块。
主持人:那这些代理现在已经在加速 AI 研究了吗?
Douglas: 在我看来,确实如此。它们显著提升了工程效率。就连我认识的一些顶尖工程师也说,在熟悉的领域里,效率提升了 1.5 倍;但在不熟悉的领域,比如新语言或生疏内容,提升甚至达到5倍。所以在「跨界」时,帮助更明显。关键在于:你是否认为我们现在的瓶颈是算力?如果不是,那让 AI 代理参与研究,相当于扩充了一整个研究团队,效率提升是数量级的。
主持人:我猜这些代理主要还在处理繁琐任务,帮你省下时间思考更重要的问题。那么它们什么时候能开始主动提出有价值的研究思路呢?
Douglas:现在主要还是做工程类任务,但已经开始有些创意冒头了。我不敢说三个月内会爆发,但两年内我们应该能看到它们提出越来越有趣的科学性想法。当然,这也取决于是否有良好的反馈机制。就像人一样,模型也需要通过练习和试错,在复杂任务中掌握知识,最终实现高质量产出。






请到「今天看啥」查看全文


推荐文章
小众软件  ·  Cursor 1.0 发布
10 小时前
小众软件  ·  人类向着虚拟世界不断前行啊
10 小时前
小众软件  ·  Macxvideo AI 首发限免活动
10 小时前
小众软件  ·  另外两件事[250603]
2 天前