专栏名称: 知识分子
《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。欢迎关注。
目录
相关文章推荐
51好读  ›  专栏  ›  知识分子

DeepSeek的能力,到底从哪里来?

知识分子  · 公众号  · 科学  · 2025-05-27 09:37

正文

请到「今天看啥」查看全文


出现之前,几乎没有人认为 纯强化学习 能真正提升大模型的推理能力。彼时更主流的看法是,推理能力的提高可能依赖蒙特卡洛树搜索 MCTS 或过程奖励模型 PRM


对于大模型而言,某种方法是否仍然有效,往往要看它能否经受住规模扩展的考验。在当时看来,纯强化学习的前景,并不如蒙特卡洛树搜索 MCTS 或过程奖励模型 PRM 更被看好。


MCTS 是一种曾在 AlphaGo 中取得成功的策略,依靠将问题拆解为若干步骤并通过多轮搜索引导模型学习。在 DeepSeek-R1 的报告中,团队尝试了类似方向,但发现当模型规模扩大后,搜索空间呈指数增长,后续训练很困难。


PRM 则是让模型生成对每个推理步骤的评价和打分,逐步判断答案的准确性,从而提升模型的推理能力。许书尧曾经投入了很多精力在这个方向,但在他看来这种系统太过复杂,很难扩大规模。


最终,还是 纯强化学习 先走通了这条路。 " 深度学习教给大家一件事情,往往是简单的方法,在规模扩大的时候更稳健 "


不过, DeepSeek 的率先成功,并不是一个只靠选对技术路线就能成功的励志故事。它更像是在一系列关键因素同时就位后,才能实现的成就。


许书尧介绍,早期的基础模型预训练阶段数据质量参差不齐,导致模型缺乏稳定的指令遵循能力。而一些更晚期的基础模型则引入了 退火 步骤,在预训练中分阶段加入更高质量的数据,逐步提高模型理解与执行复杂任务的能力。也正是在这些打好地基的工作之后,强化学习的效果才能充分显现。


新加坡国立大学 Sea AI Lab 研究人员刘梓辰表示,类似 DeepSeek-R1 的尝试其实已有先例。比如 2024 年底, AI2 Allen Institute for AI 推出的 Tülu 3 模型,就在数学任务中引入了强化学习方法,并采用了 可验证奖励 的机制。只有当模型答案正确时,才给予奖励。从这个角度看, DeepSeek 的训练思路, Tülu 3 已经部分尝试过了。


但最终, Tülu 3 的表现不如 DeepSeek-R1 亮眼,刘梓辰认为问题在于两方面。一是基础模型的选择, Tülu 3 是基于 Llama 训练的,它在数学方面强化学习的效果可能不如其他模型。二是模型体量差异, Tülu 3 的最大版本为 70B ,而 DeepSeek-R1 则是在自家 600B 级别的 DeepSeek-V3 模型上完成训练的。这一差距极大影响了强化学习的上限。


从数据层面看,许书尧指出, DeepSeek-R1 在后训练阶段还使用了约 80 万条高质量样本进行微调。这类数据不仅数量庞大,而且质量要求很高,如果出现错误很容易导致强化学习训练的崩溃。对大多数小团队而言,单是获取、筛选并清洗出这样规模和质量的数据,都很困难。


在那个时间点,除了 Google 和其他几家积累深厚的巨头,可能真没有其他团队能做出这样的成果。 刘梓辰说。 DeepSeek 手上有强大的基础模型,还具备调优这类模型的经验和资源, DeepSeekV3 作为模型本身一定也经过了高质量、清洗过的数据进行预训练,才能在强化学习后得到提升。即使其他团队掌握相似的方法、具备工程能力,如果出发点模型存在差距,也很难达到类似效果。


胡倞成认为,整个行业的推进速度本就非常惊人。即使没有 DeepSeek ,其他团队也在逐渐接近 OpenAI o1 级别的推理模型,也许再过几个月,就会有其他方案浮出水面。


DeepSeek 的成功仍然关键。在方法层面,它验证了通过强化学习提升推理能力的路径确实可行。更重要的是,它验证了这条路的可行性。 R1 之前,大家并没有真正做出一个能给自己信心的东西。这件事到底能不能做成,能做成什么样?即使有了思路方向,很多团队心里也没有底。 DeepSeek-R1 的出现,给我们做研究的人以信心,证明这条路是能走得通的, 胡倞成说。


02

性能提升,靠强化学习还是靠模型能力


在对 DeepSeek-R1 的后续研究中,一种观点逐渐受到关注。部分研究者认为,模型反思能力的提升,并非完全源自强化学习过程,而是基础模型自身能力的体现。


刘梓辰支持这种观点。他尝试复刻 DeepSeek-R1 顿悟时刻 (Aha moment) ,按照 DeepSeek-R1 的报告,这是描述训练中模型在面对特定难题时,展现了自我反思的能力,主动重新评估初始解法,并投入更多思考时间以寻求更优答案。


这一能力对推理模型非常关键。在推理模型出现之前,大模型主要依赖预训练阶段扩大参数规模来提升表现,但增长已经逐渐趋缓。在一些需要严密逻辑链条的任务中,比如数学推理,模型即便读过再多语料,依然难以获得实质突破。一个关键的瓶颈是它们缺乏自主修正回答的能力。


OpenAI o1 的成功提供了一个重要线索,如果模型拥有更长的 思考时间 ,它的解题准确率就会显著提高。







请到「今天看啥」查看全文