专栏名称: 酷玩实验室
理工男神聚集的神秘所在
目录
相关文章推荐
51好读  ›  专栏  ›  酷玩实验室

AI编程新王Claude 4,深夜震撼登基!连续编码7小时,开发者惊掉下巴

酷玩实验室  · 公众号  · 科技自媒体  · 2025-05-23 22:00

正文

请到「今天看啥」查看全文


  • Opus 4 每百万Token为 15美元(输入) / 75美元(输出)

  • Sonnet 4 每百万Token为 3美元(输入) / 15美元(输出)


01
Claude 4:AI编程新王登基


Claude Opus 4号称是Anthropic迄今为止最强大的模型,也是全球最顶尖的编码模型。

在SWE-bench和Terminal-bench测试中,分别以72.5%和43.2%的得分全面领先,碾压OpenAI刚刚发布的编程智能体Codex-1和最强推理模型o3。

即使在需要高度专注并执行数千步骤的长时间运行任务中,它都能展现出持续稳定的性能,连续工作数小时。

图片

图片

可以说,Opus 4的推出极大扩展了AI智能体的能力边界。众多前沿的AI智能体产品,都将获得强大支持。

· Cursor: Opus 4的编码能力已达业界顶尖水平,在理解复杂代码库方面,还取得了飞跃性进展。

· Replit: 在处理跨多个文件的复杂变更时,Opus 4的精度大大提升,表现出显著进步。

· Block: 在「goose」智能体中,Opus 4是首款能在编辑和调试过程中提升代码质量,同时还能保持完整性能和可靠性的模型。

· Rakuten: Opus 4通过了一项要求严苛的开源代码重构任务,这项任务独立运行长达7小时,期间它始终保持了稳定的性能。

· Cognition: Opus 4擅长解决其他模型难以应对的复杂挑战,能够成功处理先前模型未能完成的关键操作。


而在Sonnet 3.7已经算业界领先的能力基础上,Claude Sonnet 4又再度实现了显著提升。

它在编码上极其出色,在SWE-bench测试中,直接取得72.7%的顶尖成绩!

而且,Sonnet 4在内部及外部应用场景中,均实现了性能与效率的良好平衡,可操控性也大大增加了。







请到「今天看啥」查看全文