正文
不是在预训练的大蛋糕上加樱桃,而是用超大号的RL樱桃砸向整个蛋糕本身
。
AI 推理能力的飞跃:从训练期走向测试期的“思考”
主持人:
Dan Roberts曾是Sequoia Capital的团队成员,在过去两年半到三年之间,他持续在帮助我们理解“reasoning”这件事。我有大约一年半的时间是跟他面对面共事,从他身上获益良多。所以我特别期待,他能将这些见解传递给更广泛的群体。我想先分享一个去年的回忆片段,那是在AI Ascent峰会上。当时他即将从Sequoia Capital离职,加入 OpenAI,不过这事当时还未公开。当时Alfred和Sam正在台上发言,Alfred突然顺嘴一提:“对了,顺便说一下,Dan要去OpenAI啦。”我当时刚好看着Dan的表情……呃,确实相当难堪。但总之很高兴你已经顺利度过了那个阶段,并愿意来和我们分享这背后的原因。
Dan Roberts:
谢谢,其实你刚才讲的正是我原本想用来开场的内容。那么我直接切入正题吧。正如你们许多人知道的,去年九月我们在OpenAI发布了一个名为“o1”的模型。接下来我引用一张来自我们博客文章的图表,让我直接进入主题。
图片来源:Sequoia Capital
这张图展示的是机器学习模型的性能表现。纵轴代表某项数学推理基准测试的得分,而横轴才是关键,显示的是训练所需的计算量。左边这张图说明,模型性能会随着训练计算量的增加而提升,这一点做AI训练的人都很熟悉
。但真正令人兴奋的是右侧这张图:它显示模型在测试阶段计算量提升时,性能也随之增强。我们教会它推理,而它也确实会花时间“思考”;而且思考时间越长,表现就越好
。这太酷了,我们甚至把这句话印在T恤上。因为这不仅意味着训练时的进步,现在连测试时的“Compute Use”也成了性能提升的新维度。那么这意味着什么?我们拥有了一个真正能推理的模型。来做个思维实验:我们最近发布了一个更强大的推理模型:o3版本。由于我本人学的是物理,因此我们用物理问题来测试它,比如quantum electrodynamics(量子电动力学),而且它还能进行可视化。我们在纸上写了一个问题,你可能见过类似演示,它会开始“思考”,可以反复自我检验、不断聚焦细节。
它思考了一会儿,然后开始作答,并最终给出了正确答案。整个过程持续大约一分钟。顺便一提,我在博客文章发布前被要求复核这个结果,我花了整整三小时。虽然这项计算可以在四本教材中找到,但我仍得逐步推导每一步,确保每个负号都没出错,并确认它算得没错。所以我们能做什么?我们可以用一分钟时间完成非常复杂的计算,这已经足够令人惊叹。
但问题是,我们要把这种能力带向哪里?
让我们做一个更进一步的思想实验。谁最擅长思想实验?当然是Albert Einstein。那么我们就以他为主题吧。假设我们回到1907年,那时Einstein还未正式开始广义相对论的研究。我们给他出一道终极期末考题:关于广义相对论。顺便说一句,这个场景其实是GPT-4.5编造的,但我可以确认这其实是个非常合理的提问方向。当然我们不会真去问Einstein本人,而是会构建一个‘Einstein v1907超级高配版’,确保它拥有最强的推理能力和最充分的计算资源,来帮我们回答这个问题。