DeepSeek 爆火真相：不靠“人盯”，让 AI 自己学会慢思考

InfoQ 架构头条 · 公众号 · 运维 · 2025-02-19 15:39

正文

请到「今天看啥」查看全文

这是 Zero 的最大亮点，也是其名称的由来——它借鉴了 AlphaZero 的精神。AlphaZero 在人工智能历史上开创性地完全不依赖人类棋谱或经验学习，而是通过自我对弈的再生的过程数据（即：棋局状态 + 落子 + 评分的三元组步骤数据），实现了零人类监督的强化学习，并最终完全碾压了人类顶尖棋手。DeepSeek 的 Zero 研究也是如此，它表明在推理任务中，模型可以自主生成内部的过程数据，即思维链（CoT，Chain of Thought）序列，而无需人类标注。

具体来说，推理模型最初以数学和代码为对象，因为这些领域本身就存在标准答案。从宏观上看，这其实是一种典型的端到端监督学习，因为输入端（数学题或代码题）和输出端（答案或代码运行结果）都是固定的、已知的。然而，从输入到输出的过程非常复杂，信息差很大，这就需要一个“思维链”作为桥梁。就像人类遇到难题时需要分解问题、逐步思考一样，模型也需要这样的过程。DeepSeek 的研究发现，模型本身具有自主学习这种深度思考过程的能力，只要给予足够的时间和空间。如果没有这个空间，模型就只能直接从问题跳到答案，信息鸿沟大，随机性就强，成绩好不了。

DeepSeek 的解决方案是通过设计一个简单模板引导模型进行思考 。具体说，就是在传统的监督数据 question+answer 里面人为增加了一个标签 [think]: question+[think]+answer, 通过强化学习的方式，模型会自主填空，再生过程数据 question+cot+answer，以此迭代学习，cot 中就自动出现了反思、自我校正等过程。这表明，只要给予模型思考的空间，它就能自主生成思维链。非常奇妙！

给模型留够充分的自主学习空间

InfoQ：动态推理路径听起来像 AI 自己“画思维导图”——但如何避免它中途跑偏？比如写代码时突然开始写诗？

李维博士： 从目前的情况来看，这种可能性几乎不存在，或者概率极低，可以忽略不计。在 deepseek 公布他们的结果和研究细节之前，大家确实对这一点感到困惑：只靠结果监督，没有过程监督，深度思维不会乱套吗。在没有真正进行大规模强化学习实验之前，这确实是一个很大的疑问。就好比放风筝，你只牵着一根线，让风筝在天上自由飞翔，你会担心它会不会一头栽到地上。

现在看来是过虑了。它不会走偏的原因在于，所有这些推理的强化学习，包括自主生成的推理思维链的数据，实际上都是建立在原有的头部大模型（如 V3）的基础上的。这些大模型在海量数据的学习过程中，已经很好地掌握了如何把话说得顺溜。这种“顺溜”的背后是条理性。虽然不能说它完全等同于逻辑性，但至少不会偏离到完全不合理的情况。就像一个人说话很顺畅，背后的思想相对来说也是有条理的。

所以， 模型在原有大模型的基础上生成数据，经过筛选和强化学习迭代，会越来越条理化 。这种思考方式本身是由大模型自然生成的，再加上有选择机制在不断强化过程中让它越来越符合条理地导向正确答案。

话说回来，在研究人员真正做出成果之前，大家心里还是充满了怀疑和疑问，不知道让机器模拟学习人类的高阶智能这条路是否真的能走通。如果是一个能力弱的小模型，这条路是否能走通就很难说了。但 V3 本身是一个很强大的基座模型，在此基础上让模型自己生成思维链，虽然这些思维链并不总是很有条理，但并不影响最终结果。因为这是一个以结果为导向的强化学习过程，只要坚持用正确和错误的结果来控制强化学习过程，即使思维链中有时会出现一些偏差，但总体目标是一致的，最终还是能学到推理高难度题目的能力。

再从更大的角度来看，我们发现当大模型发展到一定程度时，日常人类的数据已经基本用尽，高品质的数据也所剩无几。要进一步提升能力，就必须依靠模型自己生成数据。说到底， AI 发展到现在，需要 AI 自己反哺自己才能进一步提升 。

在过去很长一段时间里，很多人对这一点存在疑问，担心模型自己教自己会导致退化，或者即使是一个好的模型教一个差的模型，也会有天花板。但现在回过头来看， 再生数据的重要性越来越大 。不仅是推理模型，就连多模态大模型也是如此。以 Sora 为例，我们知道视频和语言之间的自然对齐数据非常少，很难找到大量对视频情节进行详细讲解的数据。为了实现视频和语言的对齐，Sora 选择了再生数据的道路，用自己的模型对整个的视频训练数据集进行了非常详细的标注。再生数据助力，Sora 成为了第一个爆款的视频大模型。如今，国内的视频大模型也已经迎头赶上，如快手的可灵和字节的即梦，甚至比 Sora 还要更强一些，这背后也离不开再生数据的作用。

InfoQ：另一方面，与 OpenAI 的 o1 相比，DeepSeek R1 还有一个显著亮点是将推理思维链应用到了语言文字的创作和风格模仿能力上，这一点可以详细介绍一下吗？

李维博士： o1 出来时，大家都知道它在数学和代码能力上有了显著提升，因为标准测试显示它达到了一个更高的水平。但大家没有意识到的是，这种推理能力，或者说“慢思维”能力，不仅仅在需要严格逻辑推理的领域表现出色，它在传统的语言文字创作方面同样可以大放异彩。

DeepSeek 爆火真相：不靠“人盯”， 让 AI 自己学会慢思考

正文

请到「今天看啥」查看全文

请到「今天看啥」查看全文

DeepSeek 爆火真相：不靠“人盯”，让 AI 自己学会慢思考