地表最强编程 AI 诞生！Claude 4 连续自动编程 7 小时，实测细节惊艳程序员

APPSO · 公众号 · app · 2025-05-23 06:17

正文

请到「今天看啥」查看全文

据称，这项功能只在约 5% 的复杂任务中被触发，大多数场景中模型的推理链已足够高效，无需简化。

知名博主 Dan Shipper 也体验了 Claude 4 系列模型，并给出评价。

他认为 Opus 在编程中的表现尤为突出，尤其是在 Claude Code 中，它能够长时间独立完成编程任务，无需干预，且比 OpenAI 的 Codex 更强大。

比方说，它成功实现了一个无限滚动功能，尽管需要进一步优化，但效果已接近可发布版本。

写作方面，虽然 o3 在写作上更强，但 Opus 是一个出色的编辑工具，它能诚实地编辑文本，不会随便给「好评」，指出问题所在，还能帮忙发掘未曾发现的写作主题和模式。

不过，对于日常任务，Opus 的表现反而不如 o3。ChatGPT 的记忆功能在日常使用中更具粘性和有效性，而 Opus 仍需在智能性和速度上大幅提升，才能成为日常使用的首选工具。

目前，两款模型均已上线 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 平台，支持 Pro、Max、Team 和 Enterprise 各版本计划，Sonnet 4 甚至向免费用户开放。

价格与前代保持一致：Opus 4 每百万 token（输入/输出）分别为 $15/$75，Sonnet 4 为 $3/$15。

在 AI Agent 成为主流生产力工具的当下，Anthropic 这两款新模型为不同层级用户提供了明确选项：Opus 4 面向极致性能与科研突破，Sonnet 4 则面向主流落地与工程效率。

AI 模型不仅要聪明，还要耐用、稳健、可控。这也正是 Claude Opus 4 和 Sonnet 4 从基础能力到细节机制，从代码场景到长任务执行，所展现出来的一个明确的信号。

Claude Code 全面开放，开发者的新「AI 助理」值不值得信赖？

几个月前，Anthropic 曾以研究预览的形式上线了一款面向开发者的编程工具——Claude Code。如今，这款工具正式向所有开发者开放使用。

从今天起，无论是在命令行终端、常用的 IDE，还是你自建的应用后端中，Claude Code 将深入嵌入更多真实的开发场景，Anthropic 同步发布了 Claude Code SDK，帮助开发者基于这一 Agent 打造自定义工作流和自动化工具链。

其中一项重磅更新，是为 VS Code 和 JetBrains 系列 IDE 推出的测试版扩展。

借助该扩展，Claude 可以直接在代码编辑器中提供修改建议，开发者无需跳出熟悉的工作环境，即可快速审阅变更、追踪任务进度。只需在 IDE 的终端运行一条安装命令，即可启动 Claude Code。

除了 IDE 外，Anthropic 还发布了可扩展的 Claude Code SDK，方便用户基于 Claude Code 自行构建 Agent 和应用程序。

此外，Claude Code 也进入了 GitHub 的深度集成测试阶段。开发者现在可以在 Pull Request 中 @Claude Code，协助处理代码审阅意见、修复 CI 报错、提交修改等常见任务。只需通过 /install-github-app 命令即可安装 GitHub 插件，从此实现「提示即改动」的自动化协作。

在今天的直播环节，Anthropic CPO Mike Krieger 表示，随着 Claude Code 进入规模化应用阶段，「提示缓存」成为另一项被频繁提出的需求。现在，这项能力已正式落地：默认提示缓存 TTL 为 5 分钟，高级用户可以将其延长至 1 小时。

这项升级将显著降低长时间运行 Agent 任务的成本：最多可减少 90% 的 token 成本、缩短 85% 的响应延迟，使得 Claude 更适合处理持续交互、多轮推理的复杂任务链。

Claude Code 的产品经理在发布会上展示了一个真实的演示任务：使用 Claude Code 为 Excalidraw 添加表格组件。这个被「压箱底」很久的功能请求，如今通过 Claude，仅用一次提示就被完整实现。

在 VS Code 中打开项目后，开发者向 Claude Code 提交了一个清晰的需求描述：希望新增一个支持自定义尺寸、可拖动、风格兼容的表格组件。Claude Code 随即生成一份详细的任务清单，依照步骤开始逐步修改项目代码。

得益于 IDE 的深度集成，开发者可以一目了然地看到每次变更的代码差异（diff），并根据需要选择人工批准，或启用自动接受模式。在演示中，Claude Code 还承担了 Lint 检查、测试运行与 PR 提交等全部流程，整个实现周期不到 90 分钟。

最终成果包括新增完整的表格功能、自动生成并通过测试用例、与 Excalidraw UI 无缝集成、代码质量符合 Lint 要求，顺利通过构建，所有输出，未经手动编辑，完全由 Claude Code 独立完成。

例如，当用户在 Issue 中 @Claude，它不仅会回应请求，还能主动创建 PR，并持续通过评论更新进度，直到提交完成。这意味着，Claude Code 不再局限于本地环境，而成为你在 GitHub、Slack 或任何支持 API 的平台上都能调度的「云端代码同事」。

Anthropic 还提到，部分客户已用 Claude Code SDK 构建了更复杂的用例：包括并行运行多个实例来修复不稳定测试、自动提升覆盖率，甚至执行夜间值班时的紧急故障排查。

编程，是 AI Agent 最现实的落地场景。过去两周，OpenAI 推出了 Codex，Google 亮出了 Jules，Anthropic 则在凌晨宣布全面开放 Claude Code。

三家头部 AI 公司，几乎在同一时间选择了同一条路径：Agent，要开始上工位了。

这并非巧合。在所有需要「思考+执行」的任务中，编程是最天然适合 AI Agent 落地的场景：输入输出高度结构化，标准答案明确，工具调用接口丰富，还有大量可复用的开源语料和反馈数据。

更重要的是，它的用户就是最早接受 AI 的开发者群体。他们习惯自定义、愿意尝鲜、擅长集成，并且具备为好工具付费的能力与意愿。这是一个天然适配 Agent 产品迭代的应用场。

AI 能否替程序员「干活」，可能就是继 ChatGPT 改变内容创作后的又一次「生产力地震」。真正打响第一枪的，或许正是这次全面开放的 Claude Code。

只需要短短十分钟，它就完成了一个过去需要几天、甚至几个迭代周期才能推进的开发任务。这样的改变，也正在不断发生。下一代开发者将从学会写给 Agent 的第一条指令开始。

在发布会的最后，Anthropic CEO Dario Amodei 和 CPO Mike Krieger 展开了一场炉边谈话，APPSO 整理如下：

Mike Krieger：
欢迎回到舞台，Dario，接下来我们将进行一对一的对话。欢迎回来，Dario。

Dario Amodei：
你好，又见面了，太好了。这就像是一场在全场观众面前的一对一交流，真不错。Claude 4 发布了，包括 Claude Sonnet 4 和 Claude Opus 4 也都上线了。你对 Claude 4 模型最兴奋的点是什么？它又如何改变了你对接下来 12 个月里可能实现的事情的看法？