专栏名称: 管理智慧AI+

专注商业管理，每日发布管理、职场、互联网转型、社区实践方面的优秀文章，超过116万商业人士订阅。倾力打造的“千禾会”社区——汇聚国内数十位顶尖社区实践先行者，做你的社区实践伙伴，目前已正式上线！

深度｜OpenAI研究员Dan Roberts：AI主流认知将被打破，未来某个时点强化学习将完全主导...

管理智慧AI+ · 公众号 · 职场 · 2025-05-25 06:55

正文

请到「今天看啥」查看全文

不是在预训练的大蛋糕上加樱桃，而是用超大号的RL樱桃砸向整个蛋糕本身 。

AI 推理能力的飞跃：从训练期走向测试期的“思考”

主持人： Dan Roberts曾是Sequoia Capital的团队成员，在过去两年半到三年之间，他持续在帮助我们理解“reasoning”这件事。我有大约一年半的时间是跟他面对面共事，从他身上获益良多。所以我特别期待，他能将这些见解传递给更广泛的群体。我想先分享一个去年的回忆片段，那是在AI Ascent峰会上。当时他即将从Sequoia Capital离职，加入 OpenAI，不过这事当时还未公开。当时Alfred和Sam正在台上发言，Alfred突然顺嘴一提：“对了，顺便说一下，Dan要去OpenAI啦。”我当时刚好看着Dan的表情……呃，确实相当难堪。但总之很高兴你已经顺利度过了那个阶段，并愿意来和我们分享这背后的原因。

Dan Roberts： 谢谢，其实你刚才讲的正是我原本想用来开场的内容。那么我直接切入正题吧。正如你们许多人知道的，去年九月我们在OpenAI发布了一个名为“o1”的模型。接下来我引用一张来自我们博客文章的图表，让我直接进入主题。

图片来源：Sequoia Capital

这张图展示的是机器学习模型的性能表现。纵轴代表某项数学推理基准测试的得分，而横轴才是关键，显示的是训练所需的计算量。左边这张图说明，模型性能会随着训练计算量的增加而提升，这一点做AI训练的人都很熟悉。但真正令人兴奋的是右侧这张图：它显示模型在测试阶段计算量提升时，性能也随之增强。我们教会它推理，而它也确实会花时间“思考”；而且思考时间越长，表现就越好。这太酷了，我们甚至把这句话印在T恤上。因为这不仅意味着训练时的进步，现在连测试时的“Compute Use”也成了性能提升的新维度。那么这意味着什么？我们拥有了一个真正能推理的模型。来做个思维实验：我们最近发布了一个更强大的推理模型：o3版本。由于我本人学的是物理，因此我们用物理问题来测试它，比如quantum electrodynamics（量子电动力学），而且它还能进行可视化。我们在纸上写了一个问题，你可能见过类似演示，它会开始“思考”，可以反复自我检验、不断聚焦细节。

它思考了一会儿，然后开始作答，并最终给出了正确答案。整个过程持续大约一分钟。顺便一提，我在博客文章发布前被要求复核这个结果，我花了整整三小时。虽然这项计算可以在四本教材中找到，但我仍得逐步推导每一步，确保每个负号都没出错，并确认它算得没错。所以我们能做什么？我们可以用一分钟时间完成非常复杂的计算，这已经足够令人惊叹。 但问题是，我们要把这种能力带向哪里？ 让我们做一个更进一步的思想实验。谁最擅长思想实验？当然是Albert Einstein。那么我们就以他为主题吧。假设我们回到1907年，那时Einstein还未正式开始广义相对论的研究。我们给他出一道终极期末考题：关于广义相对论。顺便说一句，这个场景其实是GPT-4.5编造的，但我可以确认这其实是个非常合理的提问方向。当然我们不会真去问Einstein本人，而是会构建一个‘Einstein v1907超级高配版’，确保它拥有最强的推理能力和最充分的计算资源，来帮我们回答这个问题。