专栏名称: 算法专栏
算法专栏,每日推送。算法是程序员内功,分享算法知识、文章、工具、算法题、教程等
目录
相关文章推荐
文旅湖南  ·  “划”进北京,它有了“新家” ·  11 小时前  
文旅湖南  ·  “划”进北京,它有了“新家” ·  11 小时前  
体坛周报  ·  网球 | ... ·  昨天  
51好读  ›  专栏  ›  算法专栏

最强AI编码模型Claude 4来了!上线前竟试图勒索工程师,还想逃逸、反手举报欲做坏事的人类?

算法专栏  · 公众号  ·  · 2025-05-25 18:00

正文

请到「今天看啥」查看全文


Claude Opus 4 在 SWE-bench 与 Terminal-bench 测试中,分别以 72.5% 与 43.2% 的成绩领先群雄。
图片

Claude Sonnet 4 在 SWE-bench 上取得 72.7% 成绩,超越其前代 Sonnet 3.7。

时下,GitHub 宣布其将作为 Copilot 新智能体模型的底层引擎。

Manus、iGent 与 Sourcegraph 等公司在使用后也反馈,该模型在复杂指令解析、逻辑推理与代码美感方面均表现出色,尤其在大型项目中的导航错误率显著下降。Augment Code 也指出,Sonnet 4 的代码编辑更加精准、细致,已成为其主力模型。

图片
图片

模型改进

当然,前面说 Claude 能连续跑上好几个小时没问题,但真要完全不管它,让它自己跑这么久,好不好用其实还有待商量。毕竟就算是最强的模型,也可能悄悄引入一些小 bug、绕远路、或者做出一些“看起来挺合理但其实有问题”的决定。

为了进一步打消开发者的顾虑,Anthropic 在将模型升级之际,也为 Claude 4 带来了一系列配套能力,如 引入了“记忆”功能,允许模型在长时间会话中维护外部文件来存储关键信息。

基于此,众多开发者们可授予模型访问本地文件的权限,模型可创建并更新“记忆文件”,记录任务进度及其认为重要的事项。 例如其在玩 Pokémon 游戏时,会自动记录导航笔记,提升任务连贯性。这一点好比我们人类在长时间的会议或者工作中记笔记。

此外,两款模型还引入了“思维摘要”功能,仅在约 5% 情况下对复杂思路进行压缩显示,便于用户快速查看。

与此同时,Claude 4 也引入了 Anthropic 所谓的 “使用工具进行延伸思考”功能,允许模型在模拟推理与调用外部工具(如网页搜索)之间交替运行 ,这与 OpenAI 的 o3 和 04-mini-high 模型在 ChatGPT 中的表现相似。

在使用此功能时,Claude 4 的操作流程大致是这样的:思考-整个过程-调用工具-处理结果-继续思考-再调用工具...直到找到最终答案。

尽管 Claude 3.7 Sonnet 已具备较强的工具调用能力,但新的两款模型可在同一次响应中交错使用推理与工具调用。不过,值得注意的是,这项功能目前处于 Beta 阶段。







请到「今天看啥」查看全文


推荐文章
文旅湖南  ·  “划”进北京,它有了“新家”
11 小时前
文旅湖南  ·  “划”进北京,它有了“新家”
11 小时前
考研英语时事阅读  ·  【早起打卡】0219-周末复习版
8 年前