专栏名称: Python开发者
人生苦短,我用 Python。伯乐在线旗下账号「Python开发者」分享 Python 相关的技术文章、工具资源、精选课程、热点资讯等。
目录
相关文章推荐
百职帮  ·  高考结束别躺平!这个暑假学Python,开学 ... ·  3 小时前  
百职帮  ·  高考结束别躺平!这个暑假学Python,开学 ... ·  3 小时前  
Python爱好者社区  ·  月薪3万35岁脑干出血程序员:ICU躺了28 ... ·  2 天前  
Python爱好者社区  ·  务必立即拿下软考证(政策红利) ·  3 天前  
Python爱好者社区  ·  软考,yyds ·  2 天前  
Python爱好者社区  ·  Science披露:近3年,垃圾论文激增,9 ... ·  3 天前  
51好读  ›  专栏  ›  Python开发者

苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃

Python开发者  · 公众号  · Python  · 2025-06-09 16:34

主要观点总结

本文介绍了苹果最新大模型论文在AI圈引起的热议,论文指出推理模型在复杂任务中存在缺陷,并设计了四类谜题环境进行测试。文章还提到了苹果在大模型方面的进展以及存在的问题,如宣传功能延期、不完善等。最后,给出了论文地址和相关参考链接。

关键观点总结

关键观点1: 苹果最新大模型论文质疑推理模型的真正推理能力。

论文提出推理模型在面临高复杂度的任务时会出现性能崩溃,无论给它们足够的时间和计算资源也无法解决问题。

关键观点2: 论文设计了四类谜题环境来测试推理模型的性能。

这四类谜题环境包括汉诺塔、跳棋交换、过河问题和积木世界,可以精确控制难度,并观察模型在不同复杂度下的行为变化。

关键观点3: 苹果团队发现了推理模型在评估上的误区。

团队指出,现有评估主要关注模型最终答案的正确性,但忽视了中间步骤的质量,如逻辑一致性、步骤效率等。他们呼吁关注推理过程的评估方法。

关键观点4: 苹果在大模型方面的进展存在一些问题。

虽然苹果在AI领域有所投入,但大模型的进展不尽人意。一些宣传中的功能经历延期、不够完善甚至被下架。此外,内部对AI的重视程度、资源分配、管理层态度等因素也影响了苹果的AI发展。


正文

请到「今天看啥」查看全文


4类谜题环境分别是:

汉诺塔 (Tower of Hanoi)

汉诺塔是一个包含三根柱子和n个不同大小圆盘的谜题,圆盘按大小顺序 (最大的在底部) 堆叠在第一根柱子上。目标是将所有圆盘从第一根柱子移到第三根柱子。有效移动包括每次只能移动一个圆盘,只能从柱子顶部取圆盘,并且永远不能将较大的圆盘放在较小的圆盘上。

此任务的难度可以通过初始圆盘的数量来控制,n个初始圆盘所需的最少移动次数为2 n -1

跳棋交换 (Checker Jumping)

玩法是将红色跳棋、蓝色跳棋和一个空格排成一行。目标是交换所有红色和蓝色跳棋的位置,也就是将初始配置镜像反转。

有效移动包括将跳棋移动到相邻的空格中,或跳过恰好一个相反颜色的跳棋落到空格中。过程中,任何跳棋都不能向后移动。

此任务的复杂度可以通过跳棋的数量来控制,对于2n个跳棋,所需的最少移动次数为(n+1) 2 -1。

过河问题 (River Crossing)

该谜题涉及n个角色及其对应的n个代理,他们必须使用一艘船过河。目标是将所有2n个人从左岸运到右岸。船最多可载k个人,且不能空驶。

每个代理必须保护自己的客户免受竞争代理的伤害,当一个角色在没有自己代理在场的情况下与另一个代理在一起时,就会出现无效情况。

此任务的复杂度也可以通过调整角色/代理对的数量来控制。对于n=2、n=3对,使用k=2的船容量;对于更多对,使用k=3的船容量。

积木世界 (Blocks World)

该谜题要求将积木从初始配置重新排列为指定的目标配置,目标是找出完成这一转换所需的最少移动次数。

其有效移动规则为:仅能移动任意堆叠中的最顶层积木,且可将其放置于空堆叠之上或另一块积木的顶部。任务复杂度可通过积木数量进行调控。

团队在这些可控环境中进行了大量实验,对比“会思考”和“不思考”的模型组合,主要针对Claude-3.7-Sonnet模型(带思考机制 vs 不带思考机制)和DeepSeek模型(R1 vs V3),这些模型允许访问thinking tokens。

而后团队惊奇发现,随着复杂度增加,模型表现呈现出三个截然不同的区间。







请到「今天看啥」查看全文