专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
募格学术  ·  35.65亿!985新校区,9月启用 ·  4 小时前  
科研大匠  ·  808项!第二十五届中国专利奖授奖决定发布 ·  2 天前  
科研大匠  ·  中山大学,最新Science ·  4 天前  
研之成理  ·  王中阳-Ramani-Sankarasubr ... ·  3 天前  
51好读  ›  专栏  ›  PaperWeekly

SFT+RL双阶训练突破LLM自我监督!人大DeepCritic实现AI批判自主进化

PaperWeekly  · 公众号  · 科研  · 2025-06-07 23:55

主要观点总结

本文旨在解决当前大语言模型(LLM)在数学推理任务上存在的批判能力不足的难题。通过结合监督微调(SFT)和强化学习(RL)两阶段训练,提出一种名为DeepCritic的框架,旨在提升LLM的批判性思维能力。该框架通过生成详细的反馈和准确的判断,可以替代人工反馈工作,实现LLM的自动监督与持续优化。

关键观点总结

关键观点1: 背景介绍

随着模型智能的不断增强,依赖人工监督的方式也面临着越来越高饿成本和难度。如何以更高效、可扩展的方式对模型进行监督,成为非常重要且亟待解决的关键问题。

关键观点2: 现有问题

现有LLM critics在处理复杂领域如数学推理时,表现仍较为落后。作者发现现有LLM critics在批判时缺乏批判性思维,常常只会按照原始推理步骤中的逻辑进行简单的重复验证,而非以质疑的角度进行批判和深入分析。

关键观点3: 研究方法

作者提出了结合监督微调(SFT)和强化学习(RL)的两阶段训练方法来提升LLM的批判能力。在第一阶段,使用监督微调教会LLM深度批判的行为和格式;在第二阶段,采用强化学习进一步激发模型的潜力,使其在评判复杂推理过程中表现得更加精准和灵活。

关键观点4: 实验结果

实验结果表明,DeepCritic框架在多个数学评估基准上显著超过了当前的LLM critics,包括GPT-4o等模型。此外,DeepCritic模型还能通过扩展生成模型在测试时的计算,提升生成模型的效果。

关键观点5: 未来展望

作者希望通过将批判框架拓展至更多任务场景,如代码、开放领域等,探索其通用性与跨领域潜力。此外,作者还鼓励更多个人或团队分享优质内容,让知识真正流动起来。


正文

请到「今天看啥」查看全文


2.1 监督微调教会 LLM 深思熟虑地批判

在第一阶段,为了教会当前 LLM 深度批判的行为和格式,作者首先从头构造了长思维链形式的批判数据,进行监督微调(SFT)使 LLM 具备初步的深度批判能力。


具体地,作者提出了一种 分阶段、逐步增强 的批判生成流程,通过引导模型进行更深层次的思考与自我反思,提升其判断准确性与反馈质量。生成方法包括以下三个关键步骤:


初始批判生成: 首先,从人工标注的 PRM800K 中选取一小部分带有人工标注步骤正确性的问题和步骤,调用大模型(Qwen2.5-72B-Instruct)依次对每一步推理过程单独批判,生成对于每一步的初始批判。


深度批判生成: 然而,正如上述所示,现有大模型的直接批判往往容易流于表面,缺乏真正的批判性思维。


所以,这一步骤中给定问题,推理步骤和初始批判, 再次引导模型从不同角度和不同验证方法重新评估和批判,或对初始批判本身进行重新审视 ,发现初始批判没有找到的问题或者初始批判本身存在的问题,形成更有深度和反思性的 元批判 ,有效纠正初始误判。


最终批判融合和监督微调: 最后,留下判断结果与人工标注一致的所有深度批判和对应的初始批判,将它们糅合成一条长思维链,形成每一步更为成熟、细致的最终批判文本。


并把针对每一步的最终批判拼接得到对于整条解答的深度批判文本,以此共构建了约 4.5K 条高质量的监督微调数据。通过对基础模型(Qwen2.5-7B-Instruct)进行监督微调,最终得到具备多轮评估、多角度验证和元批评能力的初始评论模型 DeepCritic-7B-SFT。

▲ 图2. 两阶段训练流程示意图

2.2 强化学习激励 LLM 深思熟虑地批判

在完成了第一阶段的有监督微调,构建出具备初步深度批判能力的模型后,第二阶段的目标是进一步激发模型的潜力,使其在评判复杂推理过程中表现得更加精准和灵活。为此,作者采用强化学习(RL)对模型进行进一步训练。


强化学习阶段的关键在于高质量数据的获取。作者分别在两种不同的数据来源设定下探索 RL 训练:


人工标注数据: 直接使用已有的人工标注数据集 PRM800K,这是最理想的数据来源,具备可靠的标签信息。


自动构造数据: 考虑到人工标注成本逐渐高昂、不可持续的现实,作者还采用了一个无需人工标注的数据自动构造流程。


具体来说,从 NuminaMath-CoT 中抽取部分题目,使用 Qwen2.5-1.5B/3B/7B-Instruct 为每道题生成多个解题路径,并过滤掉太简单或者太难的题目。对于剩下的解题路径,通过蒙特卡洛采样估计法,评估每一步推理的正确性:


(1)对错误解题路径中错误步骤的识别:将解答在某一步截断,并让生成器模型(Qwen2.5-7B-Instruct)从该步开始多次展开后续步骤。 如果该步及其后所有推理步骤在所有展开中都错误,且该步之前的所有步骤的各自多数展开能得到正确答案,则将该步标记为第一个错误步骤


(2)对正确解题路径的验证:对于最终答案正确的解,也应用相同的策略来检测其中是否存在错误的中间步骤,确保标签精确和样本质量。


最终将 DeepCritic-7B-SFT 模型在 40.7K PRM800K 样本上或者 14.2K 自动构建样本上分别训练得到模型 DeepCritic-7B-RL-PRM800K 和 DeepCritic-7B-RL-Numina。








请到「今天看啥」查看全文