专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
黄建同学  ·  等我有钱了,我也要整一个 ... ·  2 天前  
人工智能产业链union  ·  【AI加油站】第十三部:《Transform ... ·  2 天前  
黄建同学  ·  The State of Cunsumer ... ·  2 天前  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与~-20250 ... ·  2 天前  
51好读  ›  专栏  ›  量子位

苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃

量子位  · 公众号  · AI  · 2025-06-08 11:40

正文

请到「今天看啥」查看全文


汉诺塔 (Tower of Hanoi)

汉诺塔是一个包含三根柱子和n个不同大小圆盘的谜题,圆盘按大小顺序 (最大的在底部) 堆叠在第一根柱子上。目标是将所有圆盘从第一根柱子移到第三根柱子。有效移动包括每次只能移动一个圆盘,只能从柱子顶部取圆盘,并且永远不能将较大的圆盘放在较小的圆盘上。

此任务的难度可以通过初始圆盘的数量来控制,n个初始圆盘所需的最少移动次数为2 n -1

跳棋交换 (Checker Jumping)

玩法是将红色跳棋、蓝色跳棋和一个空格排成一行。目标是交换所有红色和蓝色跳棋的位置,也就是将初始配置镜像反转。

有效移动包括将跳棋移动到相邻的空格中,或跳过恰好一个相反颜色的跳棋落到空格中。过程中,任何跳棋都不能向后移动。

此任务的复杂度可以通过跳棋的数量来控制,对于2n个跳棋,所需的最少移动次数为(n+1) 2 -1。

过河问题 (River Crossing)

该谜题涉及n个角色及其对应的n个代理,他们必须使用一艘船过河。目标是将所有2n个人从左岸运到右岸。船最多可载k个人,且不能空驶。

每个代理必须保护自己的客户免受竞争代理的伤害,当一个角色在没有自己代理在场的情况下与另一个代理在一起时,就会出现无效情况。

此任务的复杂度也可以通过调整角色/代理对的数量来控制。对于n=2、n=3对,使用k=2的船容量;对于更多对,使用k=3的船容量。

积木世界 (Blocks World)

该谜题要求将积木从初始配置重新排列为指定的目标配置,目标是找出完成这一转换所需的最少移动次数。

其有效移动规则为:仅能移动任意堆叠中的最顶层积木,且可将其放置于空堆叠之上或另一块积木的顶部。任务复杂度可通过积木数量进行调控。

团队在这些可控环境中进行了大量实验,对比“会思考”和“不思考”的模型组合,主要针对Claude-3.7-Sonnet模型(带思考机制 vs 不带思考机制)和DeepSeek模型(R1 vs V3),这些模型允许访问thinking tokens。

而后团队惊奇发现,随着复杂度增加,模型表现呈现出三个截然不同的区间。







请到「今天看啥」查看全文