专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

微软开源 Phi-4 推理模型:啰嗦AI,反卷出圈

大数据文摘  · 公众号  · 大数据  · 2025-05-08 14:00

正文

请到「今天看啥」查看全文


在RL(强化学习)阶段,奖励机制被专门设计成:答错时鼓励更长推理链,答对时鼓励简洁;只要模型没答对,就鼓励它“多想两步”,推理过程可以更长、更详细,甚至反复自我否定和修正。
结果?不仅答案对,思路也清晰。
技术报告里有个细节特别有意思:Phi-4-reasoning的推理链,不是越长越好,也不是越短越强,而是“刚刚好”地模拟了人类的“思考长度”。
RL阶段的奖励模式具体是:“答对了要简洁,答错了反而鼓励多思考”,而有些任务,答题过程还会“自我否定”,甚至推翻重来。当然,不是所有领域都大幅提升,比如生物、化学、离散数学,AI也会“卡壳”。
Phi-4-reasoning-plus在SFT(有监督微调)之后,还加了一层 基于规则的强化学习 ,奖励设计也很精妙:
  • 答对了鼓励简洁(奖励简短推理)
  • 答错了反而鼓励啰嗦(奖励多想一步)
  • 输出格式不对、思路紊乱要扣分
  • 重复语句有惩罚,鼓励多样性和探索


这和传统RLHF(基于人类反馈强化学习)不同,Phi-4团队用的是可自动验证的数学题,奖励函数直接和推理链长度、答案正确性挂钩,模型被训练成“有错就多想、多写,多步反省”。






请到「今天看啥」查看全文