专栏名称: 智东西

智东西－聚焦智能变革，服务产业升级！作为智能行业新锐媒体，智东西专注五大领域：VR/AR；AI/机器人/无人机；智能汽车/智能出行；智能家居/物联网；智能穿戴/智能医疗，通过内容、活动、报告以及社群等方式助力“智能＋”时代的创业和产业升级。

Anthropic发布首个混合推理模型！一次性生成数千行代码，但搞错美国总统

智东西 · 公众号 · 科技媒体 · 2025-02-25 13:02

正文

就像人类不会有两个不同的大脑来分别处理可以立即回答的问题和需要思考的问题一样，Anthropic觉得，推理只是前沿模型应具备的能力之一，它应与其他能力顺畅融合，而不是一个完全独立的模型。

Claude3.7Sonnet就从多个方面体现了这一理念：

首先， Claude3.7Sonnet集LLM和推理模型于一身： 用户可以选择让模型实时作答，也可以选择让其进行更深入的思考。

在 标准模式 下，Claude3.7Sonnet是Claude3.5 Sonnet的升级版。在 扩展思考模式 下，它会在回答前进行自我反思，从而提高了它在数学、物理、指令执行、编码以及许多其他任务上的表现。在这两种模式下，对模型的提示方式大致相同。

其次， 用户还可以控制思考的“预算”。 API用户可以告诉Claude思考所用的token不超过N个，N的取值范围可以是0到128000，从而在速度（以及成本）和答案质量之间进行权衡。

比如，在回答2024年美国数学邀请赛问题时，Claude3.7会根据每个问题允许使用多少token，即使允许Claude使用整个思考预算，它通常也会停止。

另外，把重点放在用户有更大需求的现实世界任务上，减少了对数学和计算机科学竞赛问题的优化程度。

在评估多模态 AI 代理能力的 OSWorld 上，可以看到Claude 3.7 Sonnet 开始时表现稍好，随着模型继续与虚拟计算机交互，性能上的差异随着时间的推移而增加。

除了传统基准测试外，Claude3.7Sonnet在 宝可梦游戏测 试中甚至超过了所有之前的模型。

Anthropic为该模型配备了基本内存、屏幕像素输入和函数调用，以按下按钮并在屏幕上导航，使其能够连续玩宝可梦游戏。与无法离开故事开始的Pallet Town的房子的Claude3.0相比，Claude3.7成功与三位神奇宝贝道馆长战斗并赢得了他们的徽章。

图中，x轴表示Claude在玩游戏时完成的交互次数；y轴表示游戏中涉及收集特定物品、导航到特定区域和击败特定游戏boss的重要里程碑。

推荐文章

腾讯研究院 · 腾讯研究院AI速递 20250604

昨天

36氪 · 父母说1500够，学生说4500活不了：大学生需要多少生活费？

昨天

36氪 · 70亿，顶流口红被卖了

昨天

新浪科技 · 【#苹果不再是最赚钱公司##微软苹果特斯拉排名集体下滑#】6月2-20250603090727

2 天前

新浪科技 · 【#余承东称不能以差生限制行业标准##余承东称不能一个人乱搞让集-20250603094623

2 天前

齐网网络 · 群主，发红包！！

8 年前

活法儿 · 福利｜年中大促，清爽一夏，领完全场券，来看看你要买什么！

7 年前

最搞笑笑话王 · 这条信息，不管多忙，请看看，不知道你会后悔死的！

7 年前

雷峰网 · 案例丨泸州公安如何利用基于RFID的“看车神器”，帮助民众找回被盗车辆

7 年前

阿基米德先生 · 百度加入超级账本，BAT逐鹿区块链！

7 年前