主要观点总结
本文介绍了Anthropic公司新发布的AI模型Claude 4的特点和性能,包括其在编码、推理和AI代理方面的优势,以及该模型在计算机使用任务方面的进展和挑战。文章还讨论了模型行为的可解释性和潜在的问题,如模型是否会隐藏其不想透露的信息,以及推理计算未来可能面临的瓶颈。
关键观点总结
关键观点1: Anthropic发布新AI模型Claude 4,包括Opus 4和Sonnet 4两个型号,在编码、高级推理和AI代理方面表现优异。
Claude 4在基准测试中表现出色,Opus 4在SWE-bench和Terminal-ben3ch测试中领先,Sonnet 4在编码效率上表现出色并实现了平衡。两位核心工程师透露了Claude 4的思考进步和完全自主智能体的发展路径。
关键观点2: Claude 4模型的可解释性和行为问题引起关注。
模型的某些行为引发关于其是否会隐藏想法和进行不良行为的讨论。可解释性团队致力于理解模型的行为,并采取措施确保模型的安全性和透明度。
关键观点3: 推理计算可能成为未来人工智能的瓶颈。
随着人工智能系统越来越多地用于解决实际问题,推理计算的需求将增加。未来可能会出现推理计算的瓶颈,这取决于计算资源的可用性和模型的复杂性。
正文
“到今年年底至明年同期,我们将拥有能完成接近初级工程师一天工作量的软件工程智能体,或者能独立胜任数小时专业工作的智能体。”在采访中,Douglas 预测了明年软件工程智能体所能达到的水平。Bricken 同样有此看法,并补充道,“不过能力分布可能很不均衡 —— 对某些任务,比如模板化的网站代码,它们已经能快速完成,为你节省一整天时间。”
计算机使用(computer use)任务方面,Douglas 给出了这样的具体预测,“明年五月,可以让模型在 Photoshop 上添加三个连续的效果,并且需要选择特定的照片。到 2026 年底,模型在执行任务时,能有足够的意识主动指出自己不可靠的方面。”对此,Douglas 也明确分析了为什么这一场景还需要数月时间来实现的原因。
Douglas 表示,对自主智能体而言,计算机使用(computer use)任务与软件工程任务在本质上没有区别。只要能在输入空间用 token 表示所有信息,模型就能处理 —— 它们能 “看见” 图像,还能在图像中绘制边界框,这些都是已解决的问题。唯一区别在于,其比数学和编程构建反馈循环的难度更高。但这意味着,只要投入足够精力,计算机使用问题也能攻克。
另外,人们低估了实验室当前的技术局限 —— 并非有上千人在全力推动实现计算机使用任务,模型研发流程的每个部分,都是在惊人的时间压力和惊人的限制条件下做出的最大努力。因为这些公司正处于高速发展期,拼命地想拉拢和培养足够的人才来做他们需要做的事情。
“这本质上是优先级分配的难题。”Douglas 指出,编程领域当前价值极高且更易处理,优先投入更多精力攻克该领域,一旦接近解决编码问题就能产生指数级价值,比将边际资源分配到计算机使用任务上的性价比更高。因此,每个人都在为自己关心的问题做出艰难的权衡。
另外,实验室的研究者更愿意攻克自己能产生共鸣的领域(如数学和竞争性编程),这就是为什么(让 AI)首先淘汰数学和竞技编程的原因。“因为在他们眼中,能在 AIME 竞赛中击败人类才算智能,而能做 Excel 则不算聪明 。”
“今年最大的变化是大语言模型中的强化学习(RL)终于奏效了。只要有合适的反馈循环,某类算法能让模型达到人类专家的可靠性和性能——目前这在竞争性编程和数学领域得到了确切验证。”Douglas 在采访中表示。
他谈到了两个维度,一个是任务的智力复杂性,另一个是完成任务的时间范围。“我认为我们已证明,我们可以在很多方面达到智力复杂性的顶峰,但还没有展示出长期运转的自主执行能力。到今年年底,随着真正的软件工程智能体开始执行实际工作,会有更确凿的证据。”
当前阻碍智能体完成全天工作的原因在于,缺乏上下文、无法处理复杂的多文件更改…… 某种程度上可以说是任务范围的问题。模型能在聚焦的上下文中应对高智力复杂性的具体问题,但当任务更模糊或需要进行大量探索与迭代环境时,就会变得吃力。所以或许这才是它真正的限制 —— 如果能为目标任务提供良好的反馈循环,就能表现出色;反之则会遇到困难。
所谓的反馈循环,广义上可以称为 “可验证奖励的强化学习”(RL from Verifiable Rewards),核心是拥有清晰的奖励信号。最初让模型摆脱束缚的是 “人类反馈强化学习”(RL from Human Feedback),典型方式是成对反馈,使模型输出越来越接近人类需求。但这不一定能提升模型在任何难度或问题领域的性能 —— 毕竟人类其实并不擅长判断答案的优劣,甚至存在长度偏见等问题。模型需要一种能真正判断模型输出是否正确的信号,如数学题的正确答案或通过单元测试,这些都是非常清晰的奖励信号。即使是这类信号也可能被模型 “破解”—— 如果它们能弄清楚单元测试的逻辑,就会想办法硬编码测试值来绕过。这些方法并非完美,但已更接近目标。