专栏名称: TechWeb
TechWeb专注于互联网消费领域,每日专业提供互联网产品、智能设备及互联网服务等方面的最新资讯。
目录
相关文章推荐
51好读  ›  专栏  ›  TechWeb

失业又近一步?全球最强编码模型Claude 4问世,可7小时连续编码

TechWeb  · 公众号  · 科技媒体  · 2025-05-23 13:54

正文

请到「今天看啥」查看全文


在权威编程基准测试SWE-bench Verified上,开启扩展思考的Claude Opus 4与Claude Sonnet 4的得分分别为79.4%和80.2%,大幅度超越了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模型。

在编程、工具使用、视觉推理、数学等领域的基准测试中,这两款模型超越了OpenAI o3,而在多语言问答、研究生级别推理任务上,Claude Opus 4与OpenAI o3得分持平。新模型的智能体能力迎来升级,最高可独立运行7小时,并推出了文件API、提示词缓存等新功能。

Anthropic还宣布,除了Claude 4两款模型本身强大,他们还提供了一些新的功能和改进:

扩展思考与工具使用(测试版):这两款模型都可以在扩展思考过程中使用工具,如网络搜索,使Claude能够在推理和工具使用之间灵活切换,从而优化响应质量。

新的模型能力:两款模型都可以并行使用工具,更精确地遵循指令,并且在开发人员允许访问本地文件时,展现出显著提高的记忆能力,提取和保存关键信息,以保持连续性,并随着时间的推移积累隐性知识。

Claude Code正式发布:Claude Code现在通过GitHub Actions支持后台任务,并与VS Code和JetBrains进行原生集成,可直接在文件中显示编辑,实现无缝配对编程。

API新能力:Anthropic API 发布四项新功能,使开发人员能够构建更强大的AI智能体:代码执行工具、MCP连接器、文件API,以及长达一小时的提示词缓存能力。

现在,Claude通过Anthropic API上的新代码执行工具运行代码,不仅可编写代码,还能够加载数据集、清理数据、生成探索性图表,并实时分析异常情况。在与Claude 4模型结合后,代码执行工具可以处理复杂任务,节省大量时间。

同时, Claude 4系列模型的自主性进一步提升, Claude 3.7最多可自主运行45分钟,而Claude 4可以独立运行数小时,最高达到7小时 主要是新模型通过管理待办事项列表保持记忆,不会丢失线索。

目前,Claude Opus 4和Sonnet 4这两款模型都可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用。定价与之前的Opus和Sonnet模型保持一致:Opus 4为每百万token15美元/75美元(输入/输出),Sonnet 4为每百万token 3美元/15美元。







请到「今天看啥」查看全文


推荐文章
人人都是产品经理  ·  如何构建你的产品技能金字塔
8 年前
糗事百科  ·  今天全宇宙最糗的10大糗图
8 年前
人人都是产品经理  ·  让改变发生,冲击月薪20000+的机会又来了!
7 年前
水库论坛shuiku  ·  欧神问答精选(37) #X146
7 年前