正文
在权威编程基准测试SWE-bench Verified上,开启扩展思考的Claude Opus 4与Claude Sonnet 4的得分分别为79.4%和80.2%,大幅度超越了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模型。
在编程、工具使用、视觉推理、数学等领域的基准测试中,这两款模型超越了OpenAI o3,而在多语言问答、研究生级别推理任务上,Claude Opus 4与OpenAI o3得分持平。新模型的智能体能力迎来升级,最高可独立运行7小时,并推出了文件API、提示词缓存等新功能。
Anthropic还宣布,除了Claude 4两款模型本身强大,他们还提供了一些新的功能和改进:
扩展思考与工具使用(测试版):这两款模型都可以在扩展思考过程中使用工具,如网络搜索,使Claude能够在推理和工具使用之间灵活切换,从而优化响应质量。
新的模型能力:两款模型都可以并行使用工具,更精确地遵循指令,并且在开发人员允许访问本地文件时,展现出显著提高的记忆能力,提取和保存关键信息,以保持连续性,并随着时间的推移积累隐性知识。
Claude Code正式发布:Claude Code现在通过GitHub Actions支持后台任务,并与VS Code和JetBrains进行原生集成,可直接在文件中显示编辑,实现无缝配对编程。
API新能力:Anthropic API 发布四项新功能,使开发人员能够构建更强大的AI智能体:代码执行工具、MCP连接器、文件API,以及长达一小时的提示词缓存能力。
现在,Claude通过Anthropic API上的新代码执行工具运行代码,不仅可编写代码,还能够加载数据集、清理数据、生成探索性图表,并实时分析异常情况。在与Claude 4模型结合后,代码执行工具可以处理复杂任务,节省大量时间。
同时,
Claude 4系列模型的自主性进一步提升,
Claude 3.7最多可自主运行45分钟,而Claude 4可以独立运行数小时,最高达到7小时
。
主要是新模型通过管理待办事项列表保持记忆,不会丢失线索。
目前,Claude Opus 4和Sonnet 4这两款模型都可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用。定价与之前的Opus和Sonnet模型保持一致:Opus 4为每百万token15美元/75美元(输入/输出),Sonnet 4为每百万token 3美元/15美元。