专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
目录
相关文章推荐
酒哥  ·  直降100!BDM醉顶风土!FA97鼎级单一 ... ·  3 小时前  
必经之路  ·  当你一无所有时,请记得还有它 ·  昨天  
51好读  ›  专栏  ›  大模型智能

刚刚!首个下一代大模型Claude4问世,连续编程7小时,智商震惊人类

大模型智能  · 公众号  ·  · 2025-05-24 00:00

正文

请到「今天看啥」查看全文


接下来,就让我们看下 Anthropic 最新的技术博客,详细了解下 Claude 4 的架构和性能参数(ps. 写完稿子,我们也要亲自上手体验下)。

01
从 Cursor 到 GitHub,一致给出好评

Claude Opus 4 是 Anthropic 迄今为止最强大的模型,也是全球最强的编码模型,它在 SWE-bench(72.5%)和 Terminal-bench(43.2%)基准上均处于领先地位,在需要专注投入和数千个步骤的长时间运行任务中表现出色,并能够连续工作数小时 —— 其性能远超所有 Sonnet 模型,并显著扩展了 AI 智能体的功能。

Claude Opus 4 擅长编码和复杂问题解决,为前沿智能体产品提供了支持,除了基准测试分数以外,Anthropic 也列举了一系列第三方公司的「使用反馈」。

Cursor 表示,它是编码领域的佼佼者,并在复杂代码库理解方面实现了飞跃。Replit 报告称其在跨多个文件的复杂更改方面提升了精度并取得了显著进展。Block 称其是首个在其智能体(代号为 Goose)中提升编辑和调试代码质量,同时保持完整性能和可靠性的模型。Rakuten 通过一个要求严格的开源重构模型验证了其功能, 该模型独立运行了 7 个小时,并保持了持续的性能 。Cognition 指出,Opus 4 擅长解决其他模型无法解决的复杂挑战,能够成功处理先前模型遗漏的关键操作。

Claude Sonnet 4 则在 Sonnet 3.7 业界领先的功能基础上进行了显著提升,在 SWE-bench 上达到了 72.7% 的最高代码准确率。该模型平衡了内部和外部用例的性能和效率,并增强了可操作性,从而更好地控制实现。虽然在大多数领域都无法与 Opus 4 匹敌,但它实现了功能和实用性的最佳组合。

GitHub 表示,Claude Sonnet 4 在智能体场景中表现出色,并将它作为 GitHub Copilot 中新编码智能体模型引入。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 在自主多功能应用程序开发方面表现出色,并大幅改进了问题解决和代码库导航能力 —— 将导航错误从 20% 降低到接近零。Sourcegraph 表示,该模型有望成为软件开发领域的一大飞跃 —— 能够更长时间地保持正常运行,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称其成功率更高、代码编辑更精准,并且在处理复杂任务时更加细致,使其成为其主要模型的首选。

新一代模型全面推进了众多 AI 创业公司的战略:Opus 4 突破了代码生成、深度研究、写作和科学发现的界限,当然 Sonnet 4 作为 Sonnet 3.7 的代际升级,为日常使用也带来了前沿性能。

图片

Claude 4 模型在 SWE-bench Verified(真实软件工程任务性能基准测试)上的领先成绩。

图片

Claude 4 模型在代码生成、推理、多模态能力和智能体任务方面均表现出色。

02
Claude 4 的改进与新机制

除了通过工具使用、并行工具执行和内存改进来扩展思维之外,Anthropic 还大幅减少了模型使用捷径或漏洞完成任务的行为(奖励黑客)。在易受捷径和漏洞影响的智能体任务上,这两个模型出现此类行为的可能性比 Sonnet 3.7 降低了 65%。

Claude Opus 4 在内存能力方面也显著优于所有之前的模型。当开发者构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 能够熟练地创建和维护 「内存文件」来存储关键信息。这能够提升模型在长期任务感知、连贯性和智能体任务上的表现 —— 例如,Opus 4 在玩宝可梦时自行创建了「导航指南」。

图片

当获得本地文件访问权限时,Claude Opus 4 会记录关键信息,以帮助改进其游戏体验。上图所示的笔记是 Opus 4 在玩宝可梦时的真实笔记。







请到「今天看啥」查看全文