深夜重磅！全球首个混合推理模型发布，Claude 能「思考」了，实测发现这些细节

APPSO · 公众号 · app · 2025-02-25 06:50

正文

在推理模型的优化过程中，Anthropic 减少了对数学和计算机科学竞赛问题的侧重，更专注于满足企业对 LLM 的实际应用需求。

在评估 AI 解决真实软件问题能力的 SWE-bench Verified 基准测试中，Claude 3.7 Sonnet 达到了行业领先水平。同时，该模型在 TAU-bench 测试中也表现不错，拳打旧版本，脚踢 OpenAI o1。

值得一提的是，Claude 3.7 Sonnet 在 Anthropic 内部的 Pokémon 游戏测试中超越了所有前代模型，展现了更强的决策与规划能力。

该模型现已适用于所有 Claude 订阅计划，包括免费版、专业版、团队版和企业版，同时也可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的Vertex AI 访问。

值得注意的是，除免费版外，所有平台均支持扩展思考模式（Extended Thinking Mode）。

当通过 API 使用 Claude 3.7 Sonnet 时，你还可以告诉 Claude 思考不超过 N 个 token。对于任何 N 值，其输出限制为 128K 个 token。

无论使用哪种模式，定价与前代模型保持一致。输入 100 万个 token 收费 3 美元，输出 100 万个 token（包括思考过程中使用的 token）收费 15 美元。

一直以来，Claude 的编程能力编程能力都挺拿得出手，也因此成为许多开发者的首选模型，现在，新发布的 Claude 3.7 Sonnet 进一步放大了这个优势。

Cursor、Cognition、Vercel、Replit和 Canva 等公司均确认该模型在处理复杂代码库、高级工具使用、代码修改规划和全栈更新处理等方面表现出色。

为了优化用户体验， GitHub 集成功能已向所有订阅计划开放，开发者可以直接将代码库连接到 Claude，实现更高效的协作。

无论是修复 Bug、开发新功能还是完善文档，Claude 3.7 Sonnet 都能为个人项目和企业级 GitHub 代码库提供更好的支持。

在安全性方面，通过与外部专家合作，相比前代模型， Claude 3.7 Sonnet 据说能更准确地区分恶意请求和正常请求，不必要的拒绝减少了 45%，能够提供更流畅的交互体验。

推荐文章

小众软件 · Macxvideo AI 首发限免活动

4 小时前

APPSO · Manus AI 能生成视频了，实测发现不少翻车名场面，网友：有种 2011 年的美

9 小时前

APPSO · 2025 苹果设计奖公布！这个国产 AI 应用首次入选，淘宝获奖功能 99% 用户没用过

昨天

小众软件 · Bundlehunt 年度超值 Mac 软件包来啦，45 款任选

2 天前

小众软件 · 又一款开源工具沦陷：4大功能、11万行代码说删就删。GitHub 讨论被锁定

2 天前

青塔 · 论文造假，高校该如何追责？

8 年前

毒舌美少女 · 活得漂亮，比什么都重要！

8 年前

医学界 · 点赞这位协和女大夫！用实际行动证明结婚不影响工作

7 年前

国信中房网 · 周小川：去杠杆取得初步效果警惕房地产泡沫等风险

7 年前

APPSO · 微信的「多余」功能可以关闭吗？| 有轻功 #255

7 年前