失业又近一步？全球最强编码模型Claude 4问世，可7小时连续编码

TechWeb · 公众号 · 科技媒体 · 2025-05-23 13:54

正文

请到「今天看啥」查看全文

在权威编程基准测试SWE-bench Verified上，开启扩展思考的Claude Opus 4与Claude Sonnet 4的得分分别为79.4%和80.2%，大幅度超越了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模型。

在编程、工具使用、视觉推理、数学等领域的基准测试中，这两款模型超越了OpenAI o3，而在多语言问答、研究生级别推理任务上，Claude Opus 4与OpenAI o3得分持平。新模型的智能体能力迎来升级，最高可独立运行7小时，并推出了文件API、提示词缓存等新功能。

Anthropic还宣布，除了Claude 4两款模型本身强大，他们还提供了一些新的功能和改进：

扩展思考与工具使用（测试版）：这两款模型都可以在扩展思考过程中使用工具，如网络搜索，使Claude能够在推理和工具使用之间灵活切换，从而优化响应质量。

新的模型能力：两款模型都可以并行使用工具，更精确地遵循指令，并且在开发人员允许访问本地文件时，展现出显著提高的记忆能力，提取和保存关键信息，以保持连续性，并随着时间的推移积累隐性知识。

Claude Code正式发布：Claude Code现在通过GitHub Actions支持后台任务，并与VS Code和JetBrains进行原生集成，可直接在文件中显示编辑，实现无缝配对编程。

API新能力：Anthropic API 发布四项新功能，使开发人员能够构建更强大的AI智能体：代码执行工具、MCP连接器、文件API，以及长达一小时的提示词缓存能力。

现在，Claude通过Anthropic API上的新代码执行工具运行代码，不仅可编写代码，还能够加载数据集、清理数据、生成探索性图表，并实时分析异常情况。在与Claude 4模型结合后，代码执行工具可以处理复杂任务，节省大量时间。

同时， Claude 4系列模型的自主性进一步提升， Claude 3.7最多可自主运行45分钟，而Claude 4可以独立运行数小时，最高达到7小时。 主要是新模型通过管理待办事项列表保持记忆，不会丢失线索。

目前，Claude Opus 4和Sonnet 4这两款模型都可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用。定价与之前的Opus和Sonnet模型保持一致：Opus 4为每百万token15美元/75美元（输入/输出），Sonnet 4为每百万token 3美元/15美元。