专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
51好读  ›  专栏  ›  APPSO

地表最强编程 AI 诞生!Claude 4 连续自动编程 7 小时,实测细节惊艳程序员

APPSO  · 公众号  · app  · 2025-05-23 06:17

正文

请到「今天看啥」查看全文


据称,这项功能只在约 5% 的复杂任务中被触发,大多数场景中模型的推理链已足够高效,无需简化。
知名博主 Dan Shipper 也体验了 Claude 4 系列模型,并给出评价。
他认为 Opus 在编程中的表现尤为突出,尤其是在 Claude Code 中,它能够长时间独立完成编程任务,无需干预,且比 OpenAI 的 Codex 更强大。
比方说,它成功实现了一个无限滚动功能,尽管需要进一步优化,但效果已接近可发布版本。
写作方面,虽然 o3 在写作上更强,但 Opus 是一个出色的编辑工具,它能诚实地编辑文本,不会随便给「好评」,指出问题所在,还能帮忙发掘未曾发现的写作主题和模式。
不过,对于日常任务,Opus 的表现反而不如 o3。ChatGPT 的记忆功能在日常使用中更具粘性和有效性,而 Opus 仍需在智能性和速度上大幅提升,才能成为日常使用的首选工具。
目前,两款模型均已上线 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 平台,支持 Pro、Max、Team 和 Enterprise 各版本计划,Sonnet 4 甚至向免费用户开放。
价格与前代保持一致:Opus 4 每百万 token(输入/输出)分别为 $15/$75,Sonnet 4 为 $3/$15。
在 AI Agent 成为主流生产力工具的当下,Anthropic 这两款新模型为不同层级用户提供了明确选项:Opus 4 面向极致性能与科研突破,Sonnet 4 则面向主流落地与工程效率。
AI 模型不仅要聪明,还要耐用、稳健、可控。这也正是 Claude Opus 4 和 Sonnet 4 从基础能力到细节机制,从代码场景到长任务执行,所展现出来的一个明确的信号。
Claude Code 全面开放,开发者的新「AI 助理」值不值得信赖?
几个月前,Anthropic 曾以研究预览的形式上线了一款面向开发者的编程工具——Claude Code。如今,这款工具正式向所有开发者开放使用。
从今天起, 无论是在命令行终端、常用的 IDE,还是你自建的应用后端中,Claude Code 将深入嵌入更多真实的开发场景,Anthropic 同步发布了 Claude Code SDK,帮助开发者基于这一 Agent 打造自定义工作流和自动化工具链。
其中一项重磅更新,是为 VS Code 和 JetBrains 系列 IDE 推出的测试版扩展。
借助该扩展,Claude 可以直接在代码编辑器中提供修改建议,开发者无需跳出熟悉的工作环境,即可快速审阅变更、追踪任务进度。只需在 IDE 的终端运行一条安装命令,即可启动 Claude Code。
除了 IDE 外,Anthropic 还发布了可扩展的 Claude Code SDK,方便用户基于 Claude Code 自行构建 Agent 和应用程序。
此外,Claude Code 也进入了 GitHub 的深度集成测试阶段。开发者现在可以在 Pull Request 中 @Claude Code,协助处理代码审阅意见、修复 CI 报错、提交修改等常见任务。只需通过 /install-github-app 命令即可安装 GitHub 插件,从此实现「提示即改动」的自动化协作。
在今天的直播环节,Anthropic CPO Mike Krieger 表示,随着 Claude Code 进入规模化应用阶段,「提示缓存」成为另一项被频繁提出的需求。现在,这项能力已正式落地:默认提示缓存 TTL 为 5 分钟,高级用户可以将其延长至 1 小时。
这项升级将显著降低长时间运行 Agent 任务的成本:最多可减少 90% 的 token 成本、缩短 85% 的响应延迟,使得 Claude 更适合处理持续交互、多轮推理的复杂任务链。
Claude Code 的产品经理在发布会上展示了一个真实的演示任务:使用 Claude Code 为 Excalidraw 添加表格组件。这个被「压箱底」很久的功能请求,如今通过 Claude,仅用一次提示就被完整实现。
在 VS Code 中打开项目后,开发者向 Claude Code 提交了一个清晰的需求描述:希望新增一个支持自定义尺寸、可拖动、风格兼容的表格组件。Claude Code 随即生成一份详细的任务清单,依照步骤开始逐步修改项目代码。
得益于 IDE 的深度集成,开发者可以一目了然地看到每次变更的代码差异(diff),并根据需要选择人工批准,或启用自动接受模式。在演示中,Claude Code 还承担了 Lint 检查、测试运行与 PR 提交等全部流程,整个实现周期不到 90 分钟。
最终成果包括新增完整的表格功能、自动生成并通过测试用例、与 Excalidraw UI 无缝集成、代码质量符合 Lint 要求,顺利通过构建,所有输出,未经手动编辑,完全由 Claude Code 独立完成。
例如,当用户在 Issue 中 @Claude,它不仅会回应请求,还能主动创建 PR,并持续通过评论更新进度,直到提交完成。这意味着,Claude Code 不再局限于本地环境,而成为你在 GitHub、Slack 或任何支持 API 的平台上都能调度的「云端代码同事」。
Anthropic 还提到,部分客户已用 Claude Code SDK 构建了更复杂的用例:包括并行运行多个实例来修复不稳定测试、自动提升覆盖率,甚至执行夜间值班时的紧急故障排查。
编程,是 AI Agent 最现实的落地场景。过去两周,OpenAI 推出了 Codex,Google 亮出了 Jules,Anthropic 则在凌晨宣布全面开放 Claude Code。
三家头部 AI 公司,几乎在同一时间选择了同一条路径:Agent,要开始上工位了。
这并非巧合。在所有需要「思考+执行」的任务中,编程是最天然适合 AI Agent 落地的场景:输入输出高度结构化,标准答案明确,工具调用接口丰富,还有大量可复用的开源语料和反馈数据。
更重要的是,它的用户就是最早接受 AI 的开发者群体。他们习惯自定义、愿意尝鲜、擅长集成,并且具备为好工具付费的能力与意愿。这是一个天然适配 Agent 产品迭代的应用场。
AI 能否替程序员「干活」, 可能就是继 ChatGPT 改变内容创作后的又一次「生产力地震」。真正打响第一枪的,或许正是这次全面开放的 Claude Code。
只需要短短十分钟,它就完成了一个过去需要几天、甚至几个迭代周期才能推进的开发任务。这样的改变,也正在不断发生。下一代开发者将从学会写给 Agent 的第一条指令开始。
在发布会的最后,Anthropic CEO Dario Amodei 和 CPO Mike Krieger 展开了一场炉边谈话,APPSO 整理如下:
Mike Krieger:
欢迎回到舞台,Dario,接下来我们将进行一对一的对话。欢迎回来,Dario。
Dario Amodei:
你好,又见面了,太好了。这就像是一场在全场观众面前的一对一交流,真不错。Claude 4 发布了,包括 Claude Sonnet 4 和 Claude Opus 4 也都上线了。你对 Claude 4 模型最兴奋的点是什么?它又如何改变了你对接下来 12 个月里可能实现的事情的看法?






请到「今天看啥」查看全文