专栏名称: 智东西
智东西-聚焦智能变革,服务产业升级!作为智能行业新锐媒体,智东西专注五大领域:VR/AR;AI/机器人/无人机;智能汽车/智能出行;智能家居/物联网;智能穿戴/智能医疗,通过内容、活动、报告以及社群等方式助力“智能+”时代的创业和产业升级。
目录
相关文章推荐
腾讯研究院  ·  腾讯研究院AI速递 20250604 ·  昨天  
36氪  ·  70亿,顶流口红被卖了 ·  昨天  
51好读  ›  专栏  ›  智东西

Anthropic发布首个混合推理模型!一次性生成数千行代码,但搞错美国总统

智东西  · 公众号  · 科技媒体  · 2025-02-25 13:02

正文

请到「今天看啥」查看全文



就像人类不会有两个不同的大脑来分别处理可以立即回答的问题和需要思考的问题一样,Anthropic觉得,推理只是前沿模型应具备的能力之一,它应与其他能力顺畅融合,而不是一个完全独立的模型。
Claude3.7Sonnet就从多个方面体现了这一理念:
首先, Claude3.7Sonnet集LLM和推理模型于一身: 用户可以选择让模型实时作答,也可以选择让其进行更深入的思考。
标准模式 下,Claude3.7Sonnet是Claude3.5 Sonnet的升级版。在 扩展思考模式 下,它会在回答前进行自我反思,从而提高了它在数学、物理、指令执行、编码以及许多其他任务上的表现。在这两种模式下,对模型的提示方式大致相同。

其次, 用户还可以控制思考的“预算”。 API用户可以告诉Claude思考所用的token不超过N个,N的取值范围可以是0到128000,从而在速度(以及成本)和答案质量之间进行权衡。
比如,在回答2024年美国数学邀请赛问题时,Claude3.7会根据每个问题允许使用多少token,即使允许Claude使用整个思考预算,它通常也会停止。

另外,把重点放在用户有更大需求的现实世界任务上,减少了对数学和计算机科学竞赛问题的优化程度。

在评估多模态 AI 代理能力的 OSWorld 上,可以看到Claude 3.7 Sonnet 开始时表现稍好,随着模型继续与虚拟计算机交互,性能上的差异随着时间的推移而增加。

除了传统基准测试外,Claude3.7Sonnet在 宝可梦游戏测 试中甚至超过了所有之前的模型。
Anthropic为该模型配备了基本内存、屏幕像素输入和函数调用,以按下按钮并在屏幕上导航,使其能够连续玩宝可梦游戏。与无法离开故事开始的Pallet Town的房子的Claude3.0相比,Claude3.7成功与三位神奇宝贝道馆长战斗并赢得了他们的徽章。
图中,x轴表示Claude在玩游戏时完成的交互次数;y轴表示游戏中涉及收集特定物品、导航到特定区域和击败特定游戏boss的重要里程碑。


02






请到「今天看啥」查看全文