专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
51好读  ›  专栏  ›  大数据文摘

清华团队深度实证:RL 真能让大模型进化吗?能力边界仍被基座“锁死”!

大数据文摘  · 公众号  · 大数据  · 2025-04-23 12:00

正文

请到「今天看啥」查看全文


  • RLVR强化训练,究竟有没有让大模型获得“超越基座模型”的全新推理能力?
  • 模型的推理边界到底被RLVR拓宽了吗?还是只是换了一种方式采样?
  • 我们是否过于高估了RLVR的“自我进化”魔力?


对于上述三个问题,作者用 pass@k 作为研究方法的核心。因为传统的模型评测,大多用“平均准确率”或“单次采样成功率”来衡量模型能否解题。但作者敏锐地意识到,这种评估方式其实低估”了模型的潜力。 原因是: 有些难题,模型可能前几次都答错,但多采样几次,或许就能“撞”出正确答案。
于是,论文采用了 pass@k 这个指标: 对于每道题,采样k次,只要有一次答对,就算成功。 k越大,越能“榨干”模型内在的推理极限。
核心逻辑是: 如果RLVR真能带来新能力,那在k再大时,它也应该比基座模型更能解出难题。
实验结果有点颠覆大家认知——
RLVR训练的模型,在k小的时候表现更好,但k大了以后,基础模型能超过它!
也就是: RLVR训练让模型更高效采样出正确答案,但没有带来全新的推理能力, 能力边界始终被 基座 模型“锁死”。

案例1:数学推理

以AIME24数学竞赛题为例,RLVR模型一开始比基座模型高出30%的准确率,但多采样后,基座模型最终能解出更多题目,RLVR的“能力天花板”反而更低。







请到「今天看啥」查看全文