正文
Claude Opus 4号称是Anthropic迄今为止最强大的模型,也是全球最顶尖的编码模型。
在SWE-bench和Terminal-bench测试中,分别以72.5%和43.2%的得分全面领先,碾压OpenAI刚刚发布的编程智能体Codex-1和最强推理模型o3。
即使在需要高度专注并执行数千步骤的长时间运行任务中,它都能展现出持续稳定的性能,连续工作数小时。
可以说,Opus 4的推出极大扩展了AI智能体的能力边界。众多前沿的AI智能体产品,都将获得强大支持。
· Cursor:
Opus 4的编码能力已达业界顶尖水平,在理解复杂代码库方面,还取得了飞跃性进展。
· Replit:
在处理跨多个文件的复杂变更时,Opus 4的精度大大提升,表现出显著进步。
· Block:
在「goose」智能体中,Opus 4是首款能在编辑和调试过程中提升代码质量,同时还能保持完整性能和可靠性的模型。
· Rakuten:
Opus 4通过了一项要求严苛的开源代码重构任务,这项任务独立运行长达7小时,期间它始终保持了稳定的性能。
· Cognition:
Opus 4擅长解决其他模型难以应对的复杂挑战,能够成功处理先前模型未能完成的关键操作。
而在Sonnet 3.7已经算业界领先的能力基础上,Claude Sonnet 4又再度实现了显著提升。
它在编码上极其出色,在SWE-bench测试中,直接取得72.7%的顶尖成绩!
而且,Sonnet 4在内部及外部应用场景中,均实现了性能与效率的良好平衡,可操控性也大大增加了。