专栏名称: 智东西
智东西-聚焦智能变革,服务产业升级!作为智能行业新锐媒体,智东西专注五大领域:VR/AR;AI/机器人/无人机;智能汽车/智能出行;智能家居/物联网;智能穿戴/智能医疗,通过内容、活动、报告以及社群等方式助力“智能+”时代的创业和产业升级。
目录
相关文章推荐
北京生态环境  ·  618薅羊毛的正确姿势:夜间加油 ·  16 小时前  
北京生态环境  ·  618薅羊毛的正确姿势:夜间加油 ·  16 小时前  
36氪  ·  「销冠」罗马仕,被赶出大学 ·  昨天  
51好读  ›  专栏  ›  智东西

苹果AI“暴论”震动AI圈!DeepSeek、Claude等热门大模型只是死记的模式机器?

智东西  · 公众号  · 科技媒体  · 2025-06-10 12:13

主要观点总结

本文是关于苹果发布的论文《思维的错觉:通过问题复杂性视角理解推理模型的优势与局限性》的详细报道。论文引发争议,支持和反对观点并存。论文对大型推理模型进行实验测试,发现其在处理复杂问题时存在“过度思考”和“崩溃模式”的问题,引起产业人士对推理模型能力的质疑。同时,也有人对实验设计逻辑、论述过程、示例选择提出质疑。

关键观点总结

关键观点1: 苹果发布新论文质疑大型推理模型能力

论文通过实验测试了多种推理模型,发现其在处理复杂问题时存在显著缺陷,引发产业关注。

关键观点2: 实验设计与争议

苹果团队设计了可控的实验测试平台,利用算法谜题环境测试推理模型的性能。然而,这一实验设计引发争议,有人质疑其逻辑、论述过程和示例选择。

关键观点3: 大型推理模型的局限性

实验结果表明,大型推理模型在处理复杂问题时存在“过度思考”和“崩溃模式”,无法可靠地解决某些问题。

关键观点4: 产业人士的不同观点

论文发布后,产业人士给出了不同的观点。一些人支持苹果的结论,认为大型推理模型存在能力缺陷;而另一些人则批评论文的实验设计,认为其存在局限性,不能真实反映模型的性能。

关键观点5: 研究的局限性

苹果团队承认研究的局限性,例如谜题环境可能无法捕捉到现实世界或知识密集型推理问题的多样性,实验设计存在缺陷等。


正文

请到「今天看啥」查看全文


https://machinelearning.apple.com/research/illusion-of-thinking?utm_source=perplexity

01 .
苹果新论文质疑
DeepSeek、o3-mini推理能力


首先来看实验设计,苹果团队的大多数实验在推理模型及对应非推理模型上进行,例如Claude 3.7 Sonnet(带/不带深度思考)和DeepSeek-R1/V3。团队允许最大token预算为64k。
测试不是基于当下主流基准测试进行的,因为苹果认为这些测试受数据污染影响严重,并无法深入了解推理轨迹的结构和质量,因此其通过25个谜题实例进行了测试。
1、DeepSeek、Claude在高复杂度任务上完全崩溃
谜题环境允许在保持一致逻辑结构的同时,精确控制组合复杂性。苹果认为,这种设置不仅能够分析最终答案,还能分析内部推理轨迹,从而深入了解大型推理模型的“深度思考”方式。
对于每个谜题实例,团队生成25个样本,并报告每个模型在这些样本上的平均性能。团队通过调整问题规模N(表示圆盘数、棋子数、块数或过河元素数)来改变复杂性,从而研究复杂性对推理行为的影响。
下图展示了两种模型类型在所有谜题环境中作为问题复杂性函数的准确性。
下图显示了这些模型对在等效推理token计算下的上限性能能力,也就是跨所有谜题的平均值,将早期从数学基准的分析扩展到可控的谜题环境。
这两个图的结果表明,与基准测试中的观察不同,这些模型的行为在复杂性不同的问题中存在三种情况:
(1)在低复杂度任务上,标准模型的表现出人意料地优于大型推理模型;
(2)在中等复杂度任务上,大型推理模型的额外深度思考表现出优势;
(3)在高复杂度任务上,两种模型的表现都完全崩溃。
2、接近复杂度临界值,推理模型开始“偷懒”
接下来,苹果团队研究了配备推理token的不同专门推理模型如何应对不断增加的问题复杂性。其实验评估了五种最先进的推理模型:o3-mini(中等和高配置)、DeepSeek-R1、DeepSeek-R1-Qwen-32B和Claude-3.7 Sonnet(深度思考版)。
下图展示了这些模型在不同复杂性级别上的准确性(顶部)和推理token使用情况(底部)。结果表明,所有推理模型在复杂性方面都表现出类似的模式:随着问题复杂性的增加,准确性逐渐下降,直到超过特定于模型的复杂性阈值后完全崩溃,准确度为零。
团队还观察到,推理模型最初随着问题复杂性的增加按比例增加其推理token。然而,在接近一个与它们的准确性崩溃点密切对应的临界阈值时,模型违反直觉地开始减少推理努力。
这种现象在o3-mini变体中最为明显,在Claude-3.7-Sonnet(深度思考版)模型中则不那么严重。值得注意的是,尽管在深度思考阶段运行远低于其生成长度限制,并有充足的推理预算可用,但随着问题变得更加复杂,这些模型未能利用额外的推理计算。
这种行为表明,当前推理模型的思考能力相对于问题复杂性存在基本的扩展限制。






请到「今天看啥」查看全文