专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
新智元  ·  Fellou ... ·  18 小时前  
宝玉xp  ·  转发微博-20250603073219 ·  昨天  
黄建同学  ·  Google 最近更新了来自世界一流公司的 ... ·  昨天  
爱可可-爱生活  ·  【[81星]Beam-and-Spyroso ... ·  昨天  
爱可可-爱生活  ·  本文从自由能原理(FEP)出发,在不预设学习 ... ·  2 天前  
51好读  ›  专栏  ›  人工智能学家

北大校友,OpenAI前安全副总裁Lilian Weng最新万字博客文章:Why We Think

人工智能学家  · 公众号  · AI  · 2025-05-18 16:49

正文

请到「今天看啥」查看全文


同时生成多个输出,通过过程奖励信号或最终验证器来选择最佳。

B est-of-N / Beam Search: 广泛应用
Self-consistency :对多个CoT结果进行多数投票。
过程奖励模型 : 让LLM自评估每步推理的正确性,减少累积错误
• 无 提示CoT :在首个token处保留top-k候选,后续贪婪解码,发现很多序列能自发产生CoT

2.序列修正 (Sequential Revision): 模型迭代地反思和修正先前输出

  • 挑战: 天真地依赖模型内在自修 正能力可能导致性能下降,需要 外部反馈(如单元测试、更强模型、人类反馈)
  • Self-correction learning : 训练一个修正 模型 Pe(y|y0,x)
  • S C oRe :多轮RL鼓励模型 第二次尝试时做得更好
  • Recu rsive Inspection :单模型同时进行生成和自修正
  • 简单问 题受益于纯序列修正,难题则在序列与并行计 算间存在最 优比例

RL赋能更优推理 (RL for Better Reasoning):

DeepSee k-R1的 “修炼之路”:

1.  **冷启动SFT:** 解决可读性和语言混杂问题。
2.  **面向推理的RL:** 围绕``标签和答案准确性进行奖励。
3.  **拒绝采样+非推理SFT:** 结合RL检查点生成的SFT数据和非推理数据,重训基础模型。
4.  **最终RL:** 在推理和非推理任务上训练,提升综合能力。
*   **“Aha时刻”:** 纯RL也能学到反思和回溯能力。Open-R1, SimpleRL-reason, TinyZero等开源工作也证实了这一点。
*   **DeepSeek团队的“弯路”:** PRM难以定义步级评价标准易导致奖励作弊;MCTS在语言模型的大搜索空间下效果不佳。这些失败经验同样宝贵。

外部工具使用 (External Tool Use):

让LLM调用代码解释器或API来执行计算或获取信息,扩展了其能力边界。OpenAI的o3和o4-mini也展示了Web搜索、代码 执行等工具的强大整

忠诚思考 (Thinking Faithfully): AI真的“想到哪说到哪”吗?

CoT提供了宝贵的可解释性,但前提是它真实反映了模型的“思考过程”

CoT忠诚度失效模式:

1.  **提前回答 (Early answering):** CoT未完成就已形成结论。
2.  **无效令牌 (Uninformative tokens):** 用无意义填充物替换CoT,部分任务性能不降反升(说明CoT本身可能只起到“延长计算”作用)。
3.  **人类不可读编码 (Human-unreadable encoding):** 将CoT改写成人类难懂但信息等价的形式,性能不降,说明收益不依赖于人类可读的推理。

通过扰动提示测试忠诚度 :

*   在few-shot示例中故意标错答案(如永远标(A)为正确)。
*   在提示中加入误导性线索(如“我认为答案是X,但想听听你的看法”)。
*   结果显示,推理模型(如Claude 3.7 Sonnet, DeepSeek R1)比非推理模型(Claude 3.6, DeepSeek V3)更能忠实地承认提示的影响

CoT上的优化压力:好是坏?







请到「今天看啥」查看全文