专栏名称: 哎咆科技
原「果粉查询」公众号蜕变为专注科技生活媒体,提供最前沿科技动态及爆料,产品试用测评&众筹,苹果序列号查询,山寨机&翻新机验证等服务。
目录
相关文章推荐
哎咆科技  ·  旧 iPhone 别升 iOS ... ·  18 小时前  
哎咆科技  ·  canalys ... ·  2 天前  
51好读  ›  专栏  ›  哎咆科技

苹果近日发表了一篇研究论文,质疑现有 AI 推理模型的思考能力,称 DeepSeek、o3-mini...

哎咆科技  · 公众号  · 硬件  · 2025-06-09 11:34

主要观点总结

苹果发表了一篇研究论文,质疑现有AI推理模型的思考能力,并提出目前评估模型的方式过于关注答案的正确性而忽略了思考过程的质量。为此,苹果设计了四类可控难度的谜题进行测试,发现随着问题复杂性的增加,模型的思考深度下降,甚至在高难度下完全崩溃。这篇论文引发了网友的争议,有人批评苹果否定他人成果,也有人认为论文有助于推动更科学的推理评估机制。

关键观点总结

关键观点1: 现有AI推理模型被质疑缺乏真正的思考能力。

苹果认为目前主流的AI推理模型如DeepSeek、o3-mini、Claude 3.7等仅仅是“模式匹配”,无法展现真正的推理能力。

关键观点2: 苹果提出评估AI推理模型的新视角。

论文指出目前评估AI的方式过于关注答案的正确性,忽略了思考过程的质量。苹果设计了四类可控难度的谜题来测试模型的思考能力。

关键观点3: 模型在解决复杂问题时的思考深度下降。

随着问题复杂性的增加,AI模型的思考深度下降,甚至在高难度问题面前完全崩溃。

关键观点4: 论文引发网友争议。

对于这篇论文,网友们的看法褒贬不一。有人批评苹果因为自身AI进展缓慢而否定他人成果,也有人认为论文有助于推动更科学的推理评估机制的发展。


正文

请到「今天看啥」查看全文


'苹果近日发表了一篇研究论文,质疑现有 AI 推理模型的思考能力,称 DeepSeek、o3-mini、Claude 3.7 等仅是“模式匹配”,无真正推理。 论文指出,当前评估聚焦答案正确性,忽略思考过程质量。为此,苹果设计汉诺塔、跳棋交换等四类可控难度谜题测试模型,发现随问题复杂性增加,模型思考深度下降,甚至在高难度下完全崩溃。 [旺柴]网友对此褒贬不一,有人讽刺苹果因自身 AI 进展缓慢而否定他人成果,有人则认为论文旨在推动更科学的推理评估机制。'





请到「今天看啥」查看全文