专栏名称: APPSO
让智能手机更好用的秘密。
目录
相关文章推荐
小众软件  ·  Macxvideo AI 首发限免活动 ·  4 小时前  
APPSO  ·  Manus AI ... ·  9 小时前  
小众软件  ·  Bundlehunt 年度超值 Mac ... ·  2 天前  
51好读  ›  专栏  ›  APPSO

深夜重磅!全球首个混合推理模型发布,Claude 能「思考」了,实测发现这些细节

APPSO  · 公众号  · app  · 2025-02-25 06:50

正文

请到「今天看啥」查看全文


在推理模型的优化过程中,Anthropic 减少了对数学和计算机科学竞赛问题的侧重,更专注于满足企业对 LLM 的实际应用需求。
在评估 AI 解决真实软件问题能力的 SWE-bench Verified 基准测试中,Claude 3.7 Sonnet 达到了行业领先水平。同时,该模型在 TAU-bench 测试中也表现不错,拳打旧版本,脚踢 OpenAI o1。
值得一提的是,Claude 3.7 Sonnet 在 Anthropic 内部的 Pokémon 游戏测试中超越了所有前代模型,展现了更强的决策与规划能力。
该模型现已适用于所有 Claude 订阅计划,包括免费版、专业版、团队版和企业版,同时也可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的Vertex AI 访问。
值得注意的是,除免费版外,所有平台均支持扩展思考模式(Extended Thinking Mode)。
当通过 API 使用 Claude 3.7 Sonnet 时,你还可以告诉 Claude 思考不超过 N 个 token。对于任何 N 值,其输出限制为 128K 个 token。
无论使用哪种模式,定价与前代模型保持一致。输入 100 万个 token 收费 3 美元,输出 100 万个 token(包括思考过程中使用的 token)收费 15 美元。
一直以来,Claude 的编程能力编程能力都挺拿得出手,也因此成为许多开发者的首选模型,现在,新发布的 Claude 3.7 Sonnet 进一步放大了这个优势。
Cursor、Cognition、Vercel、Replit和 Canva 等公司均确认该模型在处理复杂代码库、高级工具使用、代码修改规划和全栈更新处理等方面表现出色。
为了优化用户体验, GitHub 集成功能已向所有订阅计划开放,开发者可以直接将代码库连接到 Claude,实现更高效的协作。
无论是修复 Bug、开发新功能还是完善文档,Claude 3.7 Sonnet 都能为个人项目和企业级 GitHub 代码库提供更好的支持。
在安全性方面,通过与外部专家合作,相比前代模型, Claude 3.7 Sonnet 据说 能更准确地区分恶意请求和正常请求,不必要的拒绝减少了 45%,能够提供更流畅的交互体验。






请到「今天看啥」查看全文