“最强编码模型”上线，Claude 核心工程师独家爆料：年底可全天候工作，DeepSeek不算前沿

InfoQ · 公众号 · 科技媒体 · 2025-05-23 17:56

主要观点总结

本文介绍了Anthropic公司新发布的AI模型Claude 4的特点和性能，包括其在编码、推理和AI代理方面的优势，以及该模型在计算机使用任务方面的进展和挑战。文章还讨论了模型行为的可解释性和潜在的问题，如模型是否会隐藏其不想透露的信息，以及推理计算未来可能面临的瓶颈。

关键观点总结

关键观点1: Anthropic发布新AI模型Claude 4，包括Opus 4和Sonnet 4两个型号，在编码、高级推理和AI代理方面表现优异。

Claude 4在基准测试中表现出色，Opus 4在SWE-bench和Terminal-ben3ch测试中领先，Sonnet 4在编码效率上表现出色并实现了平衡。两位核心工程师透露了Claude 4的思考进步和完全自主智能体的发展路径。

关键观点2: Claude 4模型的可解释性和行为问题引起关注。

模型的某些行为引发关于其是否会隐藏想法和进行不良行为的讨论。可解释性团队致力于理解模型的行为，并采取措施确保模型的安全性和透明度。

关键观点3: 推理计算可能成为未来人工智能的瓶颈。

随着人工智能系统越来越多地用于解决实际问题，推理计算的需求将增加。未来可能会出现推理计算的瓶颈，这取决于计算资源的可用性和模型的复杂性。

正文

请到「今天看啥」查看全文

“到今年年底至明年同期，我们将拥有能完成接近初级工程师一天工作量的软件工程智能体，或者能独立胜任数小时专业工作的智能体。”在采访中，Douglas 预测了明年软件工程智能体所能达到的水平。Bricken 同样有此看法，并补充道，“不过能力分布可能很不均衡 —— 对某些任务，比如模板化的网站代码，它们已经能快速完成，为你节省一整天时间。”

计算机使用（computer use）任务方面，Douglas 给出了这样的具体预测，“明年五月，可以让模型在 Photoshop 上添加三个连续的效果，并且需要选择特定的照片。到 2026 年底，模型在执行任务时，能有足够的意识主动指出自己不可靠的方面。”对此，Douglas 也明确分析了为什么这一场景还需要数月时间来实现的原因。

Douglas 表示，对自主智能体而言，计算机使用（computer use）任务与软件工程任务在本质上没有区别。只要能在输入空间用 token 表示所有信息，模型就能处理 —— 它们能 “看见” 图像，还能在图像中绘制边界框，这些都是已解决的问题。唯一区别在于，其比数学和编程构建反馈循环的难度更高。但这意味着，只要投入足够精力，计算机使用问题也能攻克。

另外，人们低估了实验室当前的技术局限 —— 并非有上千人在全力推动实现计算机使用任务，模型研发流程的每个部分，都是在惊人的时间压力和惊人的限制条件下做出的最大努力。因为这些公司正处于高速发展期，拼命地想拉拢和培养足够的人才来做他们需要做的事情。

“这本质上是优先级分配的难题。”Douglas 指出，编程领域当前价值极高且更易处理，优先投入更多精力攻克该领域，一旦接近解决编码问题就能产生指数级价值，比将边际资源分配到计算机使用任务上的性价比更高。因此，每个人都在为自己关心的问题做出艰难的权衡。

另外，实验室的研究者更愿意攻克自己能产生共鸣的领域（如数学和竞争性编程），这就是为什么（让 AI）首先淘汰数学和竞技编程的原因。“因为在他们眼中，能在 AIME 竞赛中击败人类才算智能，而能做 Excel 则不算聪明。”

“今年 RL 奏效了”，

DeepSeek遭“内涵”

“今年最大的变化是大语言模型中的强化学习（RL）终于奏效了。只要有合适的反馈循环，某类算法能让模型达到人类专家的可靠性和性能——目前这在竞争性编程和数学领域得到了确切验证。”Douglas 在采访中表示。

他谈到了两个维度，一个是任务的智力复杂性，另一个是完成任务的时间范围。“我认为我们已证明，我们可以在很多方面达到智力复杂性的顶峰，但还没有展示出长期运转的自主执行能力。到今年年底，随着真正的软件工程智能体开始执行实际工作，会有更确凿的证据。”

当前阻碍智能体完成全天工作的原因在于，缺乏上下文、无法处理复杂的多文件更改…… 某种程度上可以说是任务范围的问题。模型能在聚焦的上下文中应对高智力复杂性的具体问题，但当任务更模糊或需要进行大量探索与迭代环境时，就会变得吃力。所以或许这才是它真正的限制 —— 如果能为目标任务提供良好的反馈循环，就能表现出色；反之则会遇到困难。

所谓的反馈循环，广义上可以称为 “可验证奖励的强化学习”（RL from Verifiable Rewards），核心是拥有清晰的奖励信号。最初让模型摆脱束缚的是 “人类反馈强化学习”（RL from Human Feedback），典型方式是成对反馈，使模型输出越来越接近人类需求。但这不一定能提升模型在任何难度或问题领域的性能 —— 毕竟人类其实并不擅长判断答案的优劣，甚至存在长度偏见等问题。模型需要一种能真正判断模型输出是否正确的信号，如数学题的正确答案或通过单元测试，这些都是非常清晰的奖励信号。即使是这类信号也可能被模型 “破解”—— 如果它们能弄清楚单元测试的逻辑，就会想办法硬编码测试值来绕过。这些方法并非完美，但已更接近目标。