正文
出现之前,几乎没有人认为
“
纯强化学习
”
能真正提升大模型的推理能力。彼时更主流的看法是,推理能力的提高可能依赖蒙特卡洛树搜索
(
MCTS
)
或过程奖励模型
(
PRM
)
。
对于大模型而言,某种方法是否仍然有效,往往要看它能否经受住规模扩展的考验。在当时看来,纯强化学习的前景,并不如蒙特卡洛树搜索
(
MCTS
)
或过程奖励模型
(
PRM
)
更被看好。
MCTS
是一种曾在
AlphaGo
中取得成功的策略,依靠将问题拆解为若干步骤并通过多轮搜索引导模型学习。在
DeepSeek-R1
的报告中,团队尝试了类似方向,但发现当模型规模扩大后,搜索空间呈指数增长,后续训练很困难。
PRM
则是让模型生成对每个推理步骤的评价和打分,逐步判断答案的准确性,从而提升模型的推理能力。许书尧曾经投入了很多精力在这个方向,但在他看来这种系统太过复杂,很难扩大规模。
最终,还是
“
纯强化学习
”
先走通了这条路。
"
深度学习教给大家一件事情,往往是简单的方法,在规模扩大的时候更稳健
"
。
不过,
DeepSeek
的率先成功,并不是一个只靠选对技术路线就能成功的励志故事。它更像是在一系列关键因素同时就位后,才能实现的成就。
许书尧介绍,早期的基础模型预训练阶段数据质量参差不齐,导致模型缺乏稳定的指令遵循能力。而一些更晚期的基础模型则引入了
“
退火
”
步骤,在预训练中分阶段加入更高质量的数据,逐步提高模型理解与执行复杂任务的能力。也正是在这些打好地基的工作之后,强化学习的效果才能充分显现。
新加坡国立大学
Sea AI Lab
研究人员刘梓辰表示,类似
DeepSeek-R1
的尝试其实已有先例。比如
2024
年底,
AI2
(
Allen Institute for AI
)
推出的
Tülu 3
模型,就在数学任务中引入了强化学习方法,并采用了
“
可验证奖励
”
的机制。只有当模型答案正确时,才给予奖励。从这个角度看,
DeepSeek
的训练思路,
Tülu 3
已经部分尝试过了。
但最终,
Tülu 3
的表现不如
DeepSeek-R1
亮眼,刘梓辰认为问题在于两方面。一是基础模型的选择,
Tülu 3
是基于
Llama
训练的,它在数学方面强化学习的效果可能不如其他模型。二是模型体量差异,
Tülu 3
的最大版本为
70B
,而
DeepSeek-R1
则是在自家
600B
级别的
DeepSeek-V3
模型上完成训练的。这一差距极大影响了强化学习的上限。
从数据层面看,许书尧指出,
DeepSeek-R1
在后训练阶段还使用了约
80
万条高质量样本进行微调。这类数据不仅数量庞大,而且质量要求很高,如果出现错误很容易导致强化学习训练的崩溃。对大多数小团队而言,单是获取、筛选并清洗出这样规模和质量的数据,都很困难。
“
在那个时间点,除了
Google
和其他几家积累深厚的巨头,可能真没有其他团队能做出这样的成果。
”
刘梓辰说。
DeepSeek
手上有强大的基础模型,还具备调优这类模型的经验和资源,
DeepSeekV3
作为模型本身一定也经过了高质量、清洗过的数据进行预训练,才能在强化学习后得到提升。即使其他团队掌握相似的方法、具备工程能力,如果出发点模型存在差距,也很难达到类似效果。
胡倞成认为,整个行业的推进速度本就非常惊人。即使没有
DeepSeek
,其他团队也在逐渐接近
OpenAI o1
级别的推理模型,也许再过几个月,就会有其他方案浮出水面。
但
DeepSeek
的成功仍然关键。在方法层面,它验证了通过强化学习提升推理能力的路径确实可行。更重要的是,它验证了这条路的可行性。
“
在
R1
之前,大家并没有真正做出一个能给自己信心的东西。这件事到底能不能做成,能做成什么样?即使有了思路方向,很多团队心里也没有底。
DeepSeek-R1
的出现,给我们做研究的人以信心,证明这条路是能走得通的,
”
胡倞成说。
在对
DeepSeek-R1
的后续研究中,一种观点逐渐受到关注。部分研究者认为,模型反思能力的提升,并非完全源自强化学习过程,而是基础模型自身能力的体现。
刘梓辰支持这种观点。他尝试复刻
DeepSeek-R1
的
“
顿悟时刻
(Aha moment)
”
,按照
DeepSeek-R1
的报告,这是描述训练中模型在面对特定难题时,展现了自我反思的能力,主动重新评估初始解法,并投入更多思考时间以寻求更优答案。
这一能力对推理模型非常关键。在推理模型出现之前,大模型主要依赖预训练阶段扩大参数规模来提升表现,但增长已经逐渐趋缓。在一些需要严密逻辑链条的任务中,比如数学推理,模型即便读过再多语料,依然难以获得实质突破。一个关键的瓶颈是它们缺乏自主修正回答的能力。
而
OpenAI o1
的成功提供了一个重要线索,如果模型拥有更长的
“
思考时间
”
,它的解题准确率就会显著提高。