9年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

机器之心 · 公众号 · AI · 2025-05-10 11:42

正文

机器之心整理了 Dan Roberts 的演讲内容。

正如你们许多人知道的，去年 9 月，OpenAI 发布了一个名为 o1 的模型。

我这里展示的是一张图表，y 轴代表模型在某种数学推理基准测试上的表现，但真正有趣的是 x 轴。

左边的图表显示，随着训练时间的增加，模型性能随之提升。这种走势是每个训练 AI 模型的人都熟悉的。

但真正令人兴奋的是右边的图表：它表明在「测试时间」增加时，模型的表现也会得到改善。模型学会了思考，思考的时间越多，进步就越大。

这个发现太重要了，我们甚至把它印在了 T 恤上。因为这代表了一个全新的扩展维度 —— 不仅仅是训练时间扩展，还包括测试时间扩展。

这种发现意味着什么呢？意味着我们有了一个会思考的模型。

上个月，我们发布了一个更强大的推理模型 o3，比如图中展示的一张草稿图，你可以提问「Solve the QED problem on the left（解决左边的量子电动力学问题）」。

来源 https://openai.com/index/thinking-with-images/

这类模型在测试时，能进行思考，分析图像，并放大图像细节（过程如下）。

其实这张纸上有个费曼图（一种用于表示量子场论计算的图示），模型经过分析后，最终给出正确答案 —— 整个过程大约花了一分钟。

顺便提个趣事：在发布这篇博客前，一位同事让我验证这个计算。尽管这是教科书级别的题目，但我花了 3 个小时才搞定 —— 我得一步步追踪它的推导，确保所有正负号都正确，最后才能确认答案是对的。

那么，我们现在能做什么？模型思考一分钟，就能完成一些相当复杂的计算 —— 但我们的目标远不止于此。