正文
同时生成多个输出,通过过程奖励信号或最终验证器来选择最佳。
•
B
est-of-N / Beam Search: 广泛应用
。
•
Self-consistency :对多个CoT结果进行多数投票。
•
过程奖励模型 : 让LLM自评估每步推理的正确性,减少累积错误
• 无
提示CoT :在首个token处保留top-k候选,后续贪婪解码,发现很多序列能自发产生CoT
2.序列修正 (Sequential Revision):
模型迭代地反思和修正先前输出
-
挑战: 天真地依赖模型内在自修
正能力可能导致性能下降,需要
外部反馈(如单元测试、更强模型、人类反馈)
-
Self-correction learning :
训练一个修正
模型
Pe(y|y0,x)
。
-
S
C
oRe :多轮RL鼓励模型
在
第二次尝试时做得更好
-
Recu
rsive
Inspection
:单模型同时进行生成和自修正
-
简单问
题受益于纯序列修正,难题则在序列与并行计
算间存在最
优比例
RL赋能更优推理 (RL for Better Reasoning):
DeepSee
k-R1的
“修炼之路”:
1. **冷启动SFT:** 解决可读性和语言混杂问题。
2. **面向推理的RL:** 围绕``标签和答案准确性进行奖励。
3. **拒绝采样+非推理SFT:** 结合RL检查点生成的SFT数据和非推理数据,重训基础模型。
4. **最终RL:** 在推理和非推理任务上训练,提升综合能力。
* **“Aha时刻”:** 纯RL也能学到反思和回溯能力。Open-R1, SimpleRL-reason, TinyZero等开源工作也证实了这一点。
* **DeepSeek团队的“弯路”:** PRM难以定义步级评价标准易导致奖励作弊;MCTS在语言模型的大搜索空间下效果不佳。这些失败经验同样宝贵。
外部工具使用 (External Tool Use):
让LLM调用代码解释器或API来执行计算或获取信息,扩展了其能力边界。OpenAI的o3和o4-mini也展示了Web搜索、代码
执行等工具的强大整
合
忠诚思考 (Thinking Faithfully): AI真的“想到哪说到哪”吗?
CoT提供了宝贵的可解释性,但前提是它真实反映了模型的“思考过程”
CoT忠诚度失效模式:
1. **提前回答 (Early answering):** CoT未完成就已形成结论。
2. **无效令牌 (Uninformative tokens):** 用无意义填充物替换CoT,部分任务性能不降反升(说明CoT本身可能只起到“延长计算”作用)。
3. **人类不可读编码 (Human-unreadable encoding):** 将CoT改写成人类难懂但信息等价的形式,性能不降,说明收益不依赖于人类可读的推理。
通过扰动提示测试忠诚度 :
* 在few-shot示例中故意标错答案(如永远标(A)为正确)。
* 在提示中加入误导性线索(如“我认为答案是X,但想听听你的看法”)。
* 结果显示,推理模型(如Claude 3.7 Sonnet, DeepSeek R1)比非推理模型(Claude 3.6, DeepSeek V3)更能忠实地承认提示的影响
CoT上的优化压力:好是坏?