苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3/DeepSeek高难度全崩溃

Python开发者 · 公众号 · Python · 2025-06-09 16:34

主要观点总结

本文介绍了苹果最新大模型论文在AI圈引起的热议，论文指出推理模型在复杂任务中存在缺陷，并设计了四类谜题环境进行测试。文章还提到了苹果在大模型方面的进展以及存在的问题，如宣传功能延期、不完善等。最后，给出了论文地址和相关参考链接。

论文提出推理模型在面临高复杂度的任务时会出现性能崩溃，无论给它们足够的时间和计算资源也无法解决问题。

这四类谜题环境包括汉诺塔、跳棋交换、过河问题和积木世界，可以精确控制难度，并观察模型在不同复杂度下的行为变化。

团队指出，现有评估主要关注模型最终答案的正确性，但忽视了中间步骤的质量，如逻辑一致性、步骤效率等。他们呼吁关注推理过程的评估方法。

虽然苹果在AI领域有所投入，但大模型的进展不尽人意。一些宣传中的功能经历延期、不够完善甚至被下架。此外，内部对AI的重视程度、资源分配、管理层态度等因素也影响了苹果的AI发展。

4类谜题环境分别是：

汉诺塔 （Tower of Hanoi）

汉诺塔是一个包含三根柱子和n个不同大小圆盘的谜题，圆盘按大小顺序 （最大的在底部） 堆叠在第一根柱子上。目标是将所有圆盘从第一根柱子移到第三根柱子。有效移动包括每次只能移动一个圆盘，只能从柱子顶部取圆盘，并且永远不能将较大的圆盘放在较小的圆盘上。

此任务的难度可以通过初始圆盘的数量来控制，n个初始圆盘所需的最少移动次数为2 ⁿ -1

跳棋交换 （Checker Jumping）

玩法是将红色跳棋、蓝色跳棋和一个空格排成一行。目标是交换所有红色和蓝色跳棋的位置，也就是将初始配置镜像反转。

有效移动包括将跳棋移动到相邻的空格中，或跳过恰好一个相反颜色的跳棋落到空格中。过程中，任何跳棋都不能向后移动。

此任务的复杂度可以通过跳棋的数量来控制，对于2n个跳棋，所需的最少移动次数为（n+1） ² -1。

过河问题 （River Crossing）

该谜题涉及n个角色及其对应的n个代理，他们必须使用一艘船过河。目标是将所有2n个人从左岸运到右岸。船最多可载k个人，且不能空驶。

每个代理必须保护自己的客户免受竞争代理的伤害，当一个角色在没有自己代理在场的情况下与另一个代理在一起时，就会出现无效情况。

此任务的复杂度也可以通过调整角色/代理对的数量来控制。对于n=2、n=3对，使用k=2的船容量；对于更多对，使用k=3的船容量。

积木世界 （Blocks World）

该谜题要求将积木从初始配置重新排列为指定的目标配置，目标是找出完成这一转换所需的最少移动次数。

其有效移动规则为：仅能移动任意堆叠中的最顶层积木，且可将其放置于空堆叠之上或另一块积木的顶部。任务复杂度可通过积木数量进行调控。

团队在这些可控环境中进行了大量实验，对比“会思考”和“不思考”的模型组合，主要针对Claude-3.7-Sonnet模型（带思考机制 vs 不带思考机制）和DeepSeek模型（R1 vs V3），这些模型允许访问thinking tokens。

而后团队惊奇发现，随着复杂度增加，模型表现呈现出三个截然不同的区间。