正文
这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究
基础模型和指令模型两者区别:
-
指令模型运行速度快,但最终表现与基础模型相当
-
指令输出的模型更具结构性和可读性
此外,他们还发现,具体的RL算法并不重要。PPO、GRPO、PRIME这些算法中,长思维链(Long CoT)都能够涌现,且带来不错的性能表现。
-
对于Countdow任务,模型学习进行搜索和自我验证
-
对于数字乘法任务,模型反而学习使用分布规则分解问题,并逐步解决
苹果机器学习科学家Yizhe Zhang对此表示,太酷了,小到1.5B的模型,也能通过RL涌现出自我验证的能力。
7B模型复刻,结果令人惊讶
港科大助理教授何俊贤的团队(共同一作黄裕振、Weihao Zeng),只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。
结果令人惊喜——模型在复杂的数学推理上取得了十分强劲结果。
项目地址:
https://github.com/hkust-nlp/simpleRL-reason
他们以Qwen2.5-Math-7B(基础模型)为起点,直接对其进行强化学习。
整个过程中,没有进行监督微调(SFT),也没有使用奖励模型。
最终,模型在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。
这一表现不仅超越了Qwen2.5-Math-7B-Instruct,并且还可以和使用超过50倍数据量和更复杂组件的PRIME和rStar-MATH相媲美!
其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基础模型上仅使用纯PPO方法训练的,仅采用了MATH数据集中的8K样本。
Qwen2.5-7B-SimpleRL则首先通过Long CoT监督微调(SFT)作为冷启动,然后再进行强化学习。
在这两种方法中,团队都只使用了相同的8K MATH样本,仅此而已。
大概在第44步的时候,「啊哈时刻」出现了!模型的响应中,出现了自我反思。
并且,在这个过程中,模型还显现了更长的CoT推理能力和自我反思能力。
在博客中,研究者详细剖析了实验设置,以及在这个强化学习训练过程中所观察到的现象,例如长链式思考(CoT)和自我反思机制的自发形成。