北大校友，OpenAI前安全副总裁Lilian Weng最新万字博客文章：Why We Think

人工智能学家 · 公众号 · AI · 2025-05-18 16:49

正文

请到「今天看啥」查看全文

同时生成多个输出，通过过程奖励信号或最终验证器来选择最佳。

• B est-of-N / Beam Search: 广泛应用。

• Self-consistency :对多个CoT结果进行多数投票。

• 过程奖励模型 : 让LLM自评估每步推理的正确性，减少累积错误

• 无提示CoT :在首个token处保留top-k候选，后续贪婪解码，发现很多序列能自发产生CoT

2.序列修正 (Sequential Revision): 模型迭代地反思和修正先前输出

挑战: 天真地依赖模型内在自修正能力可能导致性能下降，需要外部反馈（如单元测试、更强模型、人类反馈）
Self-correction learning : 训练一个修正模型 Pe(y|y0,x) 。
S C oRe :多轮RL鼓励模型在第二次尝试时做得更好
Recu rsive Inspection :单模型同时进行生成和自修正
简单问题受益于纯序列修正，难题则在序列与并行计算间存在最优比例

RL赋能更优推理 (RL for Better Reasoning):

DeepSee k-R1的 “修炼之路”:

1.  **冷启动SFT:** 解决可读性和语言混杂问题。
2.  **面向推理的RL:** 围绕``标签和答案准确性进行奖励。
3.  **拒绝采样+非推理SFT:** 结合RL检查点生成的SFT数据和非推理数据，重训基础模型。
4.  **最终RL:** 在推理和非推理任务上训练，提升综合能力。
*   **“Aha时刻”:** 纯RL也能学到反思和回溯能力。Open-R1, SimpleRL-reason, TinyZero等开源工作也证实了这一点。
*   **DeepSeek团队的“弯路”:** PRM难以定义步级评价标准易导致奖励作弊；MCTS在语言模型的大搜索空间下效果不佳。这些失败经验同样宝贵。

外部工具使用 (External Tool Use):

让LLM调用代码解释器或API来执行计算或获取信息，扩展了其能力边界。OpenAI的o3和o4-mini也展示了Web搜索、代码执行等工具的强大整合

忠诚思考 (Thinking Faithfully): AI真的“想到哪说到哪”吗？

CoT提供了宝贵的可解释性，但前提是它真实反映了模型的“思考过程”

CoT忠诚度失效模式:

1.  **提前回答 (Early answering):** CoT未完成就已形成结论。
2.  **无效令牌 (Uninformative tokens):** 用无意义填充物替换CoT，部分任务性能不降反升（说明CoT本身可能只起到“延长计算”作用）。
3.  **人类不可读编码 (Human-unreadable encoding):** 将CoT改写成人类难懂但信息等价的形式，性能不降，说明收益不依赖于人类可读的推理。

通过扰动提示测试忠诚度 :

*   在few-shot示例中故意标错答案（如永远标(A)为正确）。
*   在提示中加入误导性线索（如“我认为答案是X，但想听听你的看法”）。
*   结果显示，推理模型（如Claude 3.7 Sonnet, DeepSeek R1）比非推理模型（Claude 3.6, DeepSeek V3）更能忠实地承认提示的影响

CoT上的优化压力：好是坏？