ICML 2025 | 大模型深度思考新范式：交替「推理-擦除」解决所有可计算问题

机器之心 · 公众号 · AI · 2025-05-15 14:04

主要观点总结

本文提出一个名为PENCIL的深度思考新范式，相较于传统CoT，可以更高效地解决复杂的推理任务。PENCIL引入交替「推理-擦除」机制，通过擦除无用中间结果来缩短上下文长度，从而提高生成效率和准确率。实验证明，PENCIL在多种高难度推理任务上表现优异，且能显著节省计算资源。此外，文章还从理论角度证明了PENCIL用最优的空间和时间实现图灵完备的可能性。

关键观点总结

关键观点1: PENCIL深度思考范式的介绍

文章提出了一种新的深度思考范式PENCIL，通过交替执行生成和擦除，能够在处理复杂推理任务时更加高效。

关键观点2: PENCIL的擦除机制

PENCIL通过引入擦除机制，能够灵活支持多种推理模式。在生成过程中，它会动态地擦除不再需要的中间结果，只保留对后续推理有用的部分。

关键观点3: 实验验证

文章通过针对三种具有代表性的高难度推理任务构建数据集进行实验，证明了PENCIL在高准确率、计算效率和理论表达能力方面的优势。

关键观点4: PENCIL的理论意义

正文

请到「今天看啥」查看全文

生成（Generation）和擦除（Reduction），即在生成的过程中动态地擦除不再需要的中间结果，直到得到最后的答案。

一、交替「生成 - 擦除」的深度思考范式

下图以一个简单的算术题为例展示了 PENCIL 的工作机制：

CoT 将每步推理串联到上下文中直到给出答案并返回整个序列。
PENCIL 交替执行生成（图中加粗部分）和擦除（图中绿色高亮部分）：模型先写出新的思考过程，再删掉对之后的推理无用片段，只保留对后续的推理过程有用的部分，内部形成一系列隐式思维，最后仅返回最终答案。

PENCIL 擦除机制的设计借鉴了逻辑学与经典自动定理证明中的重写规则（Rewriting Rule 和函数式编程语言中的栈帧内存管理（Stack Frame）。具体地，我们引入三个特殊字符（Special Token），叫做 [CALL], [SEP], [RETURN]，并用以下的规则（Reduction Rule）来实现擦除：