专栏名称: 算法专栏

算法专栏，每日推送。算法是程序员内功，分享算法知识、文章、工具、算法题、教程等

最强AI编码模型Claude 4来了！上线前竟试图勒索工程师，还想逃逸、反手举报欲做坏事的人类？

算法专栏 · 公众号 · · 2025-05-25 18:00

正文

Claude Opus 4 在 SWE-bench 与 Terminal-bench 测试中，分别以 72.5% 与 43.2% 的成绩领先群雄。

Claude Sonnet 4 在 SWE-bench 上取得 72.7% 成绩，超越其前代 Sonnet 3.7。

时下，GitHub 宣布其将作为 Copilot 新智能体模型的底层引擎。

Manus、iGent 与 Sourcegraph 等公司在使用后也反馈，该模型在复杂指令解析、逻辑推理与代码美感方面均表现出色，尤其在大型项目中的导航错误率显著下降。Augment Code 也指出，Sonnet 4 的代码编辑更加精准、细致，已成为其主力模型。

模型改进

当然，前面说 Claude 能连续跑上好几个小时没问题，但真要完全不管它，让它自己跑这么久，好不好用其实还有待商量。毕竟就算是最强的模型，也可能悄悄引入一些小 bug、绕远路、或者做出一些“看起来挺合理但其实有问题”的决定。

为了进一步打消开发者的顾虑，Anthropic 在将模型升级之际，也为 Claude 4 带来了一系列配套能力，如引入了“记忆”功能，允许模型在长时间会话中维护外部文件来存储关键信息。

基于此，众多开发者们可授予模型访问本地文件的权限，模型可创建并更新“记忆文件”，记录任务进度及其认为重要的事项。例如其在玩 Pokémon 游戏时，会自动记录导航笔记，提升任务连贯性。这一点好比我们人类在长时间的会议或者工作中记笔记。

此外，两款模型还引入了“思维摘要”功能，仅在约 5% 情况下对复杂思路进行压缩显示，便于用户快速查看。

与此同时，Claude 4 也引入了 Anthropic 所谓的 “使用工具进行延伸思考”功能，允许模型在模拟推理与调用外部工具（如网页搜索）之间交替运行，这与 OpenAI 的 o3 和 04-mini-high 模型在 ChatGPT 中的表现相似。

在使用此功能时，Claude 4 的操作流程大致是这样的：思考-整个过程-调用工具-处理结果-继续思考-再调用工具...直到找到最终答案。

尽管 Claude 3.7 Sonnet 已具备较强的工具调用能力，但新的两款模型可在同一次响应中交错使用推理与工具调用。不过，值得注意的是，这项功能目前处于 Beta 阶段。

推荐文章

PikeTalk · 樊振东百万欧元空降德甲！当“六边形战士”踢开欧洲大门，乒乓球商业化要改写规则？

10 小时前

PikeTalk · 樊振东百万欧元空降德甲！当“六边形战士”踢开欧洲大门，乒乓球商业化要改写规则？

10 小时前

文旅湖南 · “划”进北京，它有了“新家”

11 小时前

文旅湖南 · “划”进北京，它有了“新家”

11 小时前

仙桃电视台 · 十五运龙舟赛（预赛）、2025年中国龙舟公开赛（湖北·仙桃站）公交专线及摆渡线路运行通告

昨天

仙桃电视台 · 十五运龙舟赛（预赛）、2025年中国龙舟公开赛（湖北·仙桃站）公交专线及摆渡线路运行通告

昨天

体坛周报 · 网球 | 解锁法网单打100胜，德约科维奇连续16年晋级法网八强

昨天

大皖新闻 · 中国男足已抵达雅加达，将迎生死战！主教练伊万科维奇：备战顺利，状态很好

昨天

大皖新闻 · 中国男足已抵达雅加达，将迎生死战！主教练伊万科维奇：备战顺利，状态很好

昨天

齐网网络 · 齐齐哈尔人这家西餐厅要火！50元代金券可劲送，赶紧点进来看看吧~

8 年前

时尚COSMO · 我只想要刘雯的鞋和关晓彤的大衣，你就骂我败家子？

8 年前

考研英语时事阅读 · 【早起打卡】0219-周末复习版

8 年前

冷笑话 · 外国网友上传了一段替猫咪配音的影片，又一位喵语满分的小哥~

8 年前

大宗内参 · 抢票：2017年5月20号首届中国金融衍生品逻辑峰会

8 年前