主要观点总结
本文综述了大语言模型(LLMs)在复杂推理方面的现有研究,从自我进化的视角分析了现有技术的分类与发展。文章讨论了数据进化、模型进化与自我进化之间的关系,并分析了自我进化在推理系统中的重要性。通过对比不同推理系统的自我进化策略与模式,包括独立进化、协作进化、对抗进化等,本文提出了未来研究的挑战和方向,包括增强任务多样性、开发更细致的奖励建模、平衡效率与有效性以确定最佳思维链进化,以及如何将自我进化推理应用于具身智能场景。最后,文章总结了现有类O1开源研究,并强调自我进化框架内的持续进化对于提升大语言模型复杂推理能力的重要性。
关键观点总结
关键观点1: 数据进化与模型进化的关系
数据进化通过改进推理训练数据来提升模型性能,模型进化则通过优化模型模块来增强复杂推理能力。自我进化融合了数据与模型的进化,实现系统的持续增强。
关键观点2: 自我进化的重要性
自我进化是提升大语言模型复杂推理能力的关键,通过迭代训练实现性能持续提升。
关键观点3: 现有自我进化策略与模式
独立进化、协作进化、对抗进化等是现有推理系统中常用的自我进化策略,而推理器、评估器、后处理器等模块的协同进化则有望带来更大性能提升。
关键观点4: 未来研究的挑战和方向
包括增强任务多样性、开发更细致的奖励建模、平衡效率与有效性以确定最佳思维链进化,以及将自我进化推理应用于具身智能场景。
正文
。验证器专注于通过标量评分量化解决方案质量,而评论器则以自然语言提供口头反馈。
-
验证器
验证器范式通过分配量化分数来评估解决方案的正确性。例如,Cobbe 等
[2021]
使用验证器来估计解决方案正确的概率,而Hosseini 等
[2024]
利用经过训练的DPO验证器生成反映解决方案有效性的似然分数。此外,
[Lightman 等,2024; Wang 等,2024g; Lu 等,2024a]
采用步骤级评分机制,对单个推理步骤分配分数,并使用最小值或平均值等指标聚合它们,以得出整体解决方案质量评估。
[Tian 等,2024; Xie 等,2023]
为树搜索过程中的每个状态分配分数,以优化搜索路径。为了更细的粒度,
[Yoon 等,2024; Chen 等,2024h; Lee 等,2024d; Yang 等,2024b]
引入了词元级评分机制,为单个词元分配连续或离散分数
(如中性、正确或错误)
。
-
评论器
评论器范式生成自然语言反馈,以促进错误澄清并提高评分机制的可解释性。例如,Madaan 等
[2023b]
利用模型固有的能力对其自身解决方案产生批判性反馈,实现迭代改进。同时,
[Peng 等,2023; Shinn 等,2023; Gou 等,2024]
通过结合内部模型状态和外部环境信息来扩展这种方法,生成全面的批评,不仅识别错误,还指导后续改进。进一步推进这一工作,
[Zheng 等,2024; Xi 等,2024]
进行粒度化、逐步的批判性分析,以更详细地定位和纠正错误。
[Ankner 等,2024b; Yu 等,2024b]
将批评生成与评分机制整合。通过在分配分数之前生成自然语言批评,这些方法增强了评估过程的透明度和可靠性,为评估解决方案质量提供了更可解释和稳健的框架。此外,MCTS-Judge Wang 等
[2025b]
也将自我评估建模为一系列子任务,并使用蒙特卡洛树搜索将问题分解为更简单的多角度评估任务。
图4:评估后的三种后处理方法:过滤(Filter)、总结(Summary)和纠正(Correction)。
评估的挑战:奖励欺骗
奖励欺骗被定义为策略模型利用奖励定义中的模糊性或漏洞获得高奖励,而实际上并未学习所需能力的情况
[Weng,2024]
。针对特定阶段,有两条主要路径可以缓解奖励欺骗。在奖励建模阶段,设计更复杂的过程奖励可能有助于缓解这一问题。然而,过于复杂的奖励信号也可能改变收敛目标。另一种方法是放弃细粒度的过程奖励模型
(PRM)
而仅依赖结果奖励模型
(ORM)
,这对推理任务尤为适用。例如,R1
[DeepSeek-AI 等,2025]
和T1
[Hou 等,2025]
仅采用基于答案正确性和格式合规性的规则型结果奖励,有效缓解了使用过程奖励模型时的奖励欺骗问题。此外,使用更大规模的大语言模型作为基础奖励模型可以提高其泛化能力并降低利用漏洞的风险。同时,在强化学习训练过程中,裁剪和奖励塑造等机制可以在一定程度上帮助缓解这一问题
[Gao 等,2024b
]
。
评估的挑战:泛化性
此外,奖励模型的泛化能力同样至关重要。参数化评估器
(
如奖励模型
)
通常在特定数据分布上训练,这限制了它们在分布外
(out-of-distribution, OOD)
任务上的适用性。这种限制可能导致对新任务的评估出现偏差或不稳定,进一步阻碍任务泛化
[DeepSeek-AI 等,2025; Cui 等,2025]
。因此,增强奖励模型的泛化能力,以在更广泛的任务范围内提供可靠反馈,对于提高任务泛化至关重要。一方面,可以优先考虑非参数化评估器,如答案正确性或格式准确性,以缓解这些问题
[DeepSeek-AI 等,2025; Hou 等,2025]
。另一方面,如果必须使用参数化评估器,确保其持续更新至关重要。一个关键挑战在于高效且经济地构建这些评估器的训练数据。
尽管像 R1
[DeepSeek-AI 等,2025]
这样的工作通过基于规则的结果奖励规避了现有评估器中的奖励欺骗和泛化限制问题,但也暴露了新的挑战,如过长的思维链、低效的反思和过度思考。这些问题表明,仅依赖结果奖励可能不足。更高细粒度的步骤级评估可能有助于解决这些缺点。结合过程奖励模型
(PRMs)
和结果奖励模型
(ORMs)
的优势,既能缓解奖励欺骗并确保泛化,又能实现细粒度评估,仍然是未来研究中的重要挑战。
如图4所示,评估后的推理解决方案可以进一步处理以提高其质量和可靠性。首先,可以使用总结知识
(Summary Knowledge)
从推理过程中提炼和总结关键信息。对于低质量的推理解决方案,常见的处理方法包括过滤
(Filtering)
和纠正
(Correcting)
。过滤直接移除不可靠的解决方案,而纠正通过修正错误或恢复到正确状态来优化推理过程。这两种方法各有优势,其中纠正在提高推理准确性的同时特别有效地保留有用信息。通过纳入这些后处理操作,系统可以有效避免陷入逻辑死角和重复失败的推理路径,从而在复杂问题解决场景中增强整体稳健性和可靠性。以下讨论将更详细地深入探讨这些核心策略。
为提高模型在推理任务中的表现,一些研究专注于总结先前解决方案的经验来指导后续推理。例如,Zhang 等
[2024k]
在训练实例中纳入反思组件,如通过类比和推理的替代解决方案或问题扩展,引导模型从不同角度理解问题并积累多样化的推理经验。而Wang 等
[2024l]
通过训练对齐将反思见解整合到代码本模块中,使模型能够主动检索相关反思来辅助推理过程。在树搜索推理中,Hui 等
[2024]
识别重要节点并反思后续行动和结果,生成任务级指导方针以优化搜索效率并避免重复错误。同时,Liu 等
[2024c]
引入了用于行动选择的文本原则,通过迭代反思不断完善这些原则,灵活指导行动执行。此外,Zhang 等
[2025a]
提出了基于思维链的合成器
(CoT-based Synthesizer)
,通过结合多个候选解决方案的互补信息来改进推理,即使所有候选解决方案都有缺陷也能生成更好的解决方案。
当在评估阶段识别出低质量解决方案时,最简单的方法是直接过滤。例如,当标准答案可用时,可以基于答案正确性过滤低质量解决方案
[Singh 等,2023; Gulcehre 等,2023]
。在没有标准答案的情况下,过滤策略可以基于一致性进行完善,如困惑度
(perplexity)[Min 等,2024]
、基于投票的一致性
[Wang 等,2023c; Chen 等,2023a]
、前向-后向一致性
[Jiang 等,2024b; Weng 等,2023]
,或通过构建针对多项选择题性质的后续问题来评估解决方案一致性
[Ankner 等,2024a; Lee 等,2024b]
。此外,可学习的验证器
[Cobbe 等,2021; Yu 等,2023a; Stiennon 等,2020]
可以用来进一步增强过滤过程。虽然简单过滤既高效又易于实施,但通常会导致大量推理数据浪费。
除了直接过滤外,纠正不正确的解决方案有助于最大限度地利用已有数据,因此低质量解决方案的改进已成为研究的关键方向。早期研究主要依赖模型的内在能力对解决方案进行优化。例如,Madaan 等
[2023b]
使用自生成反馈对初始输出进行迭代优化;Zhang 等
[2024g]
则通过大语言模型比较多个方案,并将差异整理为对照清单,以增强自我反思过程的一致性与可靠性。然而,仅依赖内在纠正方法往往难以充分优化结果,表明引入外部信息对于提升改进效果至关重要。
最近的研究提出多种策略增强纠正性能。Ferraz 等
[2024]
、Wu 等
[2024b]
通过细粒度约束分解和后向推理优化纠正过程。Gou 等
[2024]
利用外部工具反馈,Li 等
[2024b]
、Gao 等
[2024c]
、Chen 等
[2023b]
、Yuan 等
[2024a]
借助Python解释器迭代执行代码,直至成功评估。Ramji 等
[2024]
采用策略指标作为质量反馈,迭代优化答案。Wu 等
[2024c]
训练PSV模型识别并纠正错误步骤,确保准确性。Shridhar 等
[2024]
训练提问者模型生成子问题以辅助纠正。为增强模型的批评与改进能力,Zheng 等
[202
4
]
、Xi 等
[2024]
、Yan 等
[2024]
、Zhang 等
[2024i]
提出训练模型提供批评以推动改进。
从理论角度看,迭代纠正方法可视为通过线性搜索进行的马尔可夫决策过程
(Markov Decision Process, MDP)
,其中解决方案为状态,纠正操作则为状态转移的行动。简单的线性搜索通常效果平平,但更复杂的树搜索方法理论上能获得更优结果。例如,Zhang 等
[2024e,d]
将蒙特卡洛树搜索
(Monte Carlo Tree Search, MCTS)
与自我进化机制结合,优化复杂数学推理任务的解决方案。该算法初始化根节点,并通过价值函数 Q 选择最具潜力的节点进行扩展。在自我进化阶段,模型通过反馈纠正答案并生成更优解,随后通过自我评估打分,这些分数用于更新树中节点的价值评估。节点的树上置信上界
(Upper Confidence Bound for Trees,UCT)
值通过改进的公式进行更新。该过程持续进行,直到满足终止条件,既提升了解决方案质量,也不断探索新的可能性。
除上述纠正、过滤与总结操作外,还可采用其他后处理方式,如回溯机制
[Qin 等,2024;Yang 等,2025b]
。当系统检测到错误时,可回溯至先前状态,重新探索替代的推理路径。
在本小节中,我们将“短思维链”
(Short CoT)
定义为
仅包含逻辑推理步骤、不涉及评估与纠正等行为的思维链。
短思维链体现了一种从任务提示直接通向标准答案的精简推理过程,要求每个中间步骤均为正确。针对传统思维链准确率较低的问题,研究者提出基于启发式搜索
(尤其是树搜索)
的增强方法,以提高对短思维链的搜索效率。我们将此类方法统一归纳为“显式树搜索”
(Explicit Tree Search)
框架。
尽管短思维链本身不包含评估等行为,但在搜索过程中仍可引入评估机制辅助推理。搜索过程中,评估函数用于引导探索方向并执行剪枝,从而优先保留最具潜力的路径。该方法在提升搜索效率的同时,亦保持了所生成思维链的准确性与简洁性。根据底层搜索策略的不同,显式树搜索算法可分为若干类型:
朴素的广度优先/深度优先搜索(naive BFS/DFS)、束搜索(Beam Search)、A*算法
以及
蒙特卡洛树搜索(MCTS)。
广度优先/深度优先搜索:
思维树
(Tree-of-Thoughts, ToT)[Yao 等,2023]
将问题分解为多个思维节点,并利用经典搜索算法——广度优先搜索
(BFS)
和深度优先搜索
(
DF
S)
——探索多样化的推理路径,显著增强了语言模型在复杂任务中的问题解决能力。Qin 等
[2023]
将搜索过程与工具使用相结合,采用 DFS 处理工具组合与错误管理,从而提升模型在真实任务中的表现。上述方法依赖外部程序
(如 Python 代码)
定义搜索逻辑。然而,这些被动搜索方法效率较低,灵活性有限。自主树搜索
(
Autonomous Tree-Search)[Zhang 等,2023b]
通过提示直接引导大语言模型独立执行 BFS 或 DFS,自主探索多条解决路径,提升推理灵活性。思维算法
(Algorithm-of-Thought, AoT)[Sel 等,2023]
则利用 BFS/DFS 的整个搜索路径作为提示,整合思维链与思维树的优势,使模型在推理过程中能动态调整路径,从而更高效地发现解法。此外,AoT 避免了 ToT 所需的多轮查询,降低了推理开销。
束搜索:
束搜索作为广度优先搜索的一种变体,在搜索过程中维护k个候选序列
(
称为束
)
,实现了搜索准确性和计算效率之间的有效平衡。其与大语言模型自回归生成的契合使其特别适合在解码过程中指导前向搜索。根据搜索的粒度,束搜索可分为三个层次:词元级
(token-level)
、步骤级
(step-level)
和解决方案级
(solution-level)
。
-
词元级束搜索
在模型生成的最小单位上操作,直接与大语言模型解码过程对齐。虽然传统束搜索基于词元对数概率对序列进行排序,但这种方法优先考虑自然语言流畅性而非推理质量。为解决这一局限性,Lee 等
[2024c]
引入了词元监督价值模型,对词元进行评分以提高数学推理的准确性。此外,为缓解生成序列多样性不足的问题,Vijayakumar 等
[2016]
提出多样化束搜索,将束分成多个组,在每个组内独立优化,并在组间引入多样性惩罚,以鼓励生成更多样的推理路径。
-
步骤级束搜索
将多步推理分解为子步骤,对每个子步骤进行评分和验证,以维持高质量的候选路径。例如,Wang 等
[2024i]
、Ma 等
[2023]
使用过程奖励模型
(PRM)
对子步骤进行打分,利用这些分数引导搜索朝有希望的推理路径发展。类似地,Chen 等
[2024b]
、Yu 等
[2023a]
利用学习的价值模型在步骤级别增强搜索效率,避免了蒙特卡洛树搜索的计算开销。Setlur 等
[2024]
进一步结合过程优势来完善搜索过程。与外部评估方法不同,Xie 等
[
2
023]
利用模型本身进行自我验证,提示它验证步骤正确性,同时通过温度调整的随机化引入多样性。
-
解决方案级束搜索
独立评估整个推理路径,通过避免中间操作提供更快的推理。例如,Best-of-N
(BoN)
采样生成多个完整解决方案,并使用奖励模型选择评分最高的解。然而,Wang 等
[2024i]
强调了奖励模型在区分相似推理过程方面的局限性,提出了一种成对偏好模型以实现更有效的排名。同时,Wang 和 Zhou
[2024]
观察到模型可以通过采样自动生成思维链推理,而基于思维链得出的答案表现出更高的置信度。利用这一见解,他们引入了思维链解码
(CoT-decoding)
,这是一种通过改变解码过程隐式执行思维链推理的方法,通过top-k采样生成多个序列,并基于答案置信度选择最佳序列。
A*搜索:
A*算法通过使用评估函数f(n) = g(n) + h(n) 扩展最具潜力的节点,从而提升搜索效率。其中,g(n) 表示从初始状态到当前节点的累积代价,h(n) 是用于估计从当前节点到目标状态的启发式代价函数。该框架已被改造以增强大语言模型的多步推理能力,在搜索效率方面优于传统的思维树
(ToT)
方法。
已有多项研究将 A* 原则整合进大语言模型的推理过程。Zhuang 等
[2023]
提出 ToolChain*,为特定任务维护一套“长期记忆”机制,用于存储推理经验。该记忆系统初始由示例数据预置,并在推理过程中不断吸收正确的解路径,从而实现动态扩展。ToolChain* 通过最长公共子序列
(Longest Common Subsequence)
将新任务与历史经验匹配,进而估计累积与未来成本,实现对复杂规划与推理任务中最优解的高效识别。相比之下,Wang 等
[2024a]
引入了 Q*,该方法采用训练得到的 Q 值模型为每个状态计算启发式值 h(x),从而使 A* 算法可扩展至数学、编程等领域。
进一步的研究利用大语言模型的固有能力对 A* 搜索进行优化。Meng 等
[2024a]
提出 LLM-A*,该方法利用大语言模型的全局理解生成中间引导点
(waypoints)
,以引导 A* 搜索方向并减少冗余状态的探索。Gupta 和 Li
[2024]
训练大语言模型学习真实代价 h∗(n) 与启发式估计 h(x) 之间的残差
(
差
)
,通过减少迭代次数加快搜索收敛。Lehnert 等
[2024]
提出 Searchformer,将 A* 的执行轨迹转化为标记序列,进而引导 Transformer 模型迭代采样更短路径。类似地,Su 等
[
2024
]
提出 Dualformer,在 A* 搜索过程中引入随机信息丢弃机制,使模型在搜索过程中实现快思维与慢思维的动态平衡,从而优化搜索策略。
蒙特卡洛树搜索:
蒙特卡洛树搜索
(Monte Carlo Tree Search, MCTS)
是一种在探索与利用之间实现平衡的搜索算法,在以马尔可夫决策过程
(Markov Decision Process, MDP)
建模的任务中表现出色
[Chen 等,2024b; Wu 等,2024a]
。这类任务通常要求 MCTS 在庞大的状态-行动空间中发挥其探索与利用平衡的优势,以发现高价值的行动轨迹。 AlphaGo Zero
[Silver 等,2017]
是其中代表,该系统基于 MCTS 实现,在围棋任务中搜索高质量的落子序列,不断优化策略网络的性能。受 AlphaGo Zero 启发,研究者提出了在复杂行动空间中使用 MCTS 搜索高质量推理路径的思路。经典MCTS通常包含以下四个步骤
[Browne 等,2012]
:
-
选择(Selection)
从根节点开始,MCTS 在探索与利用之间进行权衡,并据此计算各子节点的权重。常见的权重计算策略包括上置信界
(Upper Confidence Bound, UCB)
和预测器上置信树界
(Predictor Upper Confidence Tree Bound, PUCT)[Rosin, 2011]
。 UCB 公式为:
;PUCT公式为:
。其中Q(s,a)表示从状态 s 采取行动 a 后的累积奖励,
π
prior
(a|s)
为在状态 s 下选择行动 a 的先验概率, N(s) 是当前上下文中状态 s 被探索的次数, N(s,a) 是行动 a 在状态 s 被探索的次数。权重函数同时考虑探索
(未访问节点将获得更高探索值)
与利用
(历史上高回报节点获得更高利用值)
。每轮选择会推进到得分最高的子节点,直至到达叶节点。
-
扩展 (Expansion)
一旦到达叶节点,若该节点不是终止状态(例如尚未得出最终答案),MCTS 将基于当前状态执行新的行动,扩展生成多个子节点。扩展质量主要取决于行动空间的定义。在围棋中,行动为落子;而在大语言模型推理中,不同任务需定义不同的行动空间。即使在同一任务下,不同粒度的行动空间也可能导致完全不同的搜索行为和结果。
-
评估(Evaluation)
到达叶节点后,需对其状态值进行评估。常见方法包括: 1)蒙特卡洛采样估值:将从根到当前节点的状态-行动路径作为上下文,采样多个完整轨迹,并基于其统计指标
(
如成功率
)
计算状态值。该方法无偏但方差高、计算成本大,难以用于采样代价高的任务; 2)训练价值模型估值:利用预训练模型直接估计状态值,但训练价值模型比奖励模型更具挑战,因为它需预测未来的预期累积奖励。
-
反向传播(Backpropagation)
一旦完成状态值评估,MCTS 将从叶节点向根节点回传该值,更新路径中所有节点的状态估计。随着模拟次数的增加,这些估值愈发精确。该过程重复执行,直到达到设定的最大模拟次数,最终形成一棵记录每个节点状态值与访问次数的搜索树。由于不同任务和方法的设计差异,MCTS 在大语言模型推理中的实现方式也有所不同。
在前一节中,我们介绍了基于短思维链
(Short CoT)
的方法,其特点是每一步推理均为正确。所有被判定为“无前途”
(unpromising)
的推理步骤将由算法控制进行剪枝,使搜索聚焦于更有希望的分支,确保最终仅保留通向正确解的推理轨迹。与此相对,长思维链
(Long CoT)[DeepSeek-AI 等,2025;Team 等,2025;Hou 等,2025;Xu 等,2025]
并不要求每一步都正确,而是允许模型在推理过程中通过试错进行探索。我们将长思维链定义为模拟人类认知过程的思维链。与短思维链不同,长思维链不仅包含逐步逻辑推理,还在整个推理过程中集成了自我评估和自我纠正等行为。相应地,我们将R1和类似工作用于探索长思维链的过程称为隐式试错搜索
(Implicit Trial-and-Error Search)
。在此过程中,不需要外部评估器或精炼器;大语言模型自主触发其自我评估机制,并利用自我纠正和回溯能力来调整推理路径,这对提高推理性能至关重要。 尽管长思维链在表面上呈现为线性结构,但由于纠错与回溯机制的存在,其本质逻辑形态更接近于树状结构。因此,我们将其称为隐式搜索。
为实现 Long CoT 的生成,O1 项目
[Huang 等,2024]
提出了基于蒸馏的训练方法。然而,该方法仅模仿了试错行为的模式,未能真正赋予模型深入思考的能力。为此,多个团队陆续引入基于强化学习的优化策略。DeepSeek-R1 在 PPO
[Schulman 等,2017]
的基础上采用 GRPO
[Shao 等,2024]
进行改进;Kimi k1.5 借助在线策略镜像变体
[Lazic 等,2019]
;T1 应用了 RLOO 算法
[Ahmadian 等,2024]
进行优化。这些优化将在 §4 详细讨论。
值得注意的是,这些开源研究普遍选择以结果奖励模型
(Outcome Reward Model, ORM)
替代过程奖励模型
(Process Reward Model, PRM)
,以指导大语言模型自主探索解空间。这一策略性转变使模型在性能上达到了与 O1 相当甚至超越的水平。放弃 PRM 的决定,主要源于其泛化能力有限以及奖励欺骗
(reward hacking)
问题严重,相关内容已在 §3.2.1 中详尽讨论。 随着强化学习训练的不断推进,模型生成的思维链显著延长,推理准确性与泛化能力持续提升。在此过程中,模型甚至展现出“顿悟时刻”
[DeepSeek-AI 等,2025]
:能够自主完成解的验证与替代推理路径的探索,表现出接近人类“灵感式”认知的推理能力。
在深入比较之前,我们简要总结显式树搜索用于短思维链和试错搜索用于长思维链在程序上的区别:
图5:两种搜索范式的说明。显式树搜索通过同时扩展多个步骤并优先处理最有希望的步骤来提高搜索效率,从而识别逻辑连贯的短思维链。相比之下,隐式试错搜索通过逐步推理、试错和回溯到过去的状态来探索替代思路,模仿人类思考。
-
如图5所示,显式树搜索采用启发式搜索算法
(
如
蒙特卡洛树搜索、A*和束搜索)
来探索解决方案空间。在每个状态,都会扩展多个行动以获得候选状态,形成树结构的搜索过程。在此过程中,推理系统被动调用评估和剪枝等操作。生成的思维链中的每个推理步骤都保证是正确的,而评估、剪枝和错误纠正等行为不会在短思维链
(Short CoT)
中呈现。
-
相比之下,隐式试错搜索不依赖启发式算法。相反,大语言模型在推理过程中主动调用自我评估和自我纠正等能力,并用自然语言表达这些操作。因此,试错搜索中的长思维链不仅包含逐步推理,还融合自我评估、自我纠正与回溯操作,使整体推理过程更加透明且具有动态调整能力。
在性能方面,树搜索也有成功的实现,如rStar-Math
[Guan 等,2025]
,它使用蒙特卡洛树搜索和过程奖励模型以及自我进化训练,使小型大语言模型在性能上达到与O1相当的水平。然而,最近的开源项目,包括DeepSeek R1
[Team, 2024a]
和Kimi k1.5
[Team 等,2025]
,都选择了试错搜索路线,获得了显著的泛化能力
[Yeo 等,2025]
。这些开源项目放弃使用短思维链的显式树搜索,转而采用长思维链的试错搜索的原因可以从其技术报告中推断:
-
首先,树搜索通常依赖奖励模型或价值模型等验证器提供评分,以实现细粒度的评估指导。然而,这些验证器普遍存在泛化能力弱与奖励欺骗严重的问题。这可能导致中间评估不准确,甚至因 LLM 利用捷径最大化奖励而引发训练崩溃。相比之下,R1、Kimi k1.5和T1在搜索过程中利用自我评估能力,并在训练过程中采用基于规则的结果奖励,显著减轻了奖励欺骗并提高了泛化能力。
-
此外,树搜索中验证器的分数仅反映推理的相对质量,未能指出错误或原因,导致评估质量有限。相比之下,R1和类似项目通过自我评估生成口头评估反馈,提供更丰富和更有信息的反馈。
-
最后,虽然树搜索可以同时探索多条路径,但这些路径是独立的。因此,中间经验无法在它们之间共享,降低了并行推理过程的利用率。这使得树搜索与人类推理有显著差异,因为在人类推理中,过去错误的见解指导后续推理,这在长思维链
(Long CoT)
的试错搜索中可以看到。
虽然上述讨论强调了与试错搜索相比,显式树搜索的弱点,但并不意味着试错搜索没有缺点。
-
在试错搜索中应用长思维链可能在两个关键方面引入效率低下。1) 对于简单任务,长思维链方法往往表现出
过度思考
。正如
[Chen 等,2024f]
所指出的,QwQ
[Team, 2024b]
和R1
[DeepSeek-AI 等,2025]
等方法通常会探索多个潜在解决方案,即使初始解决方案通常已经足够。这种过度探索行为会引入显著的计算资源消耗。2) 对于复杂任务,Wang 等
[2025a]
观察到QwQ和R1容易
思考不足
。这些方法往往在未充分验证当前推理路径有效性前即过早放弃,导致策略频繁切换,导致搜索过程不稳定且效率低下,伴随着不必要的冗长推理链。相比之下,基于短思维链的方法产生更简洁的推理路径,提供明显的效率优势。
[Wu 等,2025b; Xie 等,2025a]
进一步论证,更长的思维链不一定能改善推理性能;相反,每个模型和任务都存在最佳思维链长度。因此,试错搜索的低效率不仅增加了词元使用和计算成本,还降低了性能。
-
此外,隐式试错搜索严重依赖大语言模型的自我评估和自我纠正能力。一方面,这些能力的背景机制仍是需要进一步研究的领域;另一方面,这些能力在大语言模型的学习过程中尚未被特别优化。R1
[DeepSeek-AI 等,2025]
、kimi k1.5
[Team 等,2025]
和T1
[Hou 等,2025]
等模型在同一行动空间中仅使用结果级奖励同时学习推理、评估、反思和错误纠正,但缺乏专门的奖励信号来指导评估、反思和纠正能力的学习。结果,大语言模型中的这些能力没有得到特别优化,一个后果是,即使大语言模型在早期阶段进行低质量的反思或错误纠正,只要最终答案正确,它们仍然可以获得积极奖励。此外,自我评估能力的不足是R1等方法经常无法准确评估推理路径,从而过早放弃有希望路径的原因之一。
为解决效率低下问题,Kimi k1.5
[Team 等,2025]
引入了长度惩罚作为长度奖励的一部分,用于控制响应长度。Yeo 等
[2025]
设计了余弦奖励函数,对于正确响应,奖励随着长度缩短而增加,而对于错误响应,奖励随着长度增加而增加。Luo 等
[2025]
提出长度协调奖励,抑制过长的响应。除引入新的奖励函数外,Chen 等
[2024f]
采用偏好学习,将最短响应视为正例,最长响应视为负例,从而鼓励大语言模型生成更短的思维链,抑制过长思维链的生成。我们在表1中简要总结了这两种搜索方法的差异。
显式树搜索与隐式试错搜索的统一
这两种搜索策略——树搜索和试错搜索——各自提供独特优势,引发一个关键问题:它们之间的关系是什么,能否统一?我们从两个角度探讨这个问题。首先,我们从行动空间的角度分析这两种搜索的相关性,重点关注不同元操作符的角色。
-
最初,两种策略都包括逐步推理,短思维链主要由逻辑连贯的推理步骤组成。
-
然而,两种策略在评估机制上有显著差异。显式树搜索通常需要学习过程奖励模型或价值模型来评估推理质量,由于这些模型泛化能力差而引入高偏差。相比之下,试错搜索依靠大语言模型的内在自我评估能力来评估推理状态。
-
关于后处理,我们以"纠正"为例进行分析。树搜索通常缺乏直接纠正操作,尽管分支间切换可被视为一种形式上的错误纠正。然而,这种"纠正"无法利用先前尝试的内容,因为它们仅是在先前扩展阶段预先采样的,不同尝试彼此独立。例如,在蒙特卡洛树搜索的扩展阶段,同时采样多个子候选行动。在随后的选择阶段,当前状态中选择的行动可能与前一模拟中的不同,这可视为一种"纠正"。然而,此次模拟中选择的新行动并非基于前一模拟中所选行动的评估反馈生成;相反,两种行动都是在扩展阶段独立采样的。
因此,与试错搜索相比,当前树搜索方法的主要限制主要在于其受限的行动空间。如果扩展树搜索的行动空间以纳入评估和纠正等行动,理论上它也可以促进长思维链的探索
[Lin 等,2025]
。
从推理能力进化的角度看,长思维链是解决新问题的有效方法,而短思维链代表通过对长思维链的持续训练实现的最终目标。具体而言,人类在面对复杂任务时,通常先通过试错探索,最终归纳出高效的求解路径。可以学习这些有效途径以减少不必要的试错,从而缩短长思维链。因此,长思维链可视为处理复杂任务的初始和中间解决方案。一旦解决任务,从长思维链提炼的知识可用于学习短思维链,而短思维链又作为先验知识,在处理更复杂任务时减少长思维链的试错迭代。总之,强大的推理系统应具备动态切换长思维链与短思维链的能力,以实现探索性与高效性的自适应平衡。