正文
机器之心整理了 Dan Roberts 的演讲内容。
正如你们许多人知道的,去年 9 月,OpenAI 发布了一个名为 o1 的模型。
我这里展示的是一张图表,y 轴代表模型在某种数学推理基准测试上的表现,但真正有趣的是 x 轴。
左边的图表显示,随着训练时间的增加,模型性能随之提升。这种走势是每个训练 AI 模型的人都熟悉的。
但真正令人兴奋的是右边的图表:它表明在「测试时间」增加时,模型的表现也会得到改善。模型学会了思考,思考的时间越多,进步就越大。
这个发现太重要了,我们甚至把它印在了 T 恤上。因为这代表了一个全新的扩展维度 —— 不仅仅是训练时间扩展,还包括测试时间扩展。
这种发现意味着什么呢?意味着我们有了一个
会思考的模型
。
上个月,我们发布了一个更强大的推理模型 o3,比如图中展示的一张草稿图,你可以提问「Solve the QED problem on the left(解决左边的量子电动力学问题)」。
来源 https://openai.com/index/thinking-with-images/
这类模型在测试时,能进行思考,分析图像,并放大图像细节(过程如下)。
其实这张纸上有个费曼图(一种用于表示量子场论计算的图示),模型经过分析后,最终给出正确答案 —— 整个过程大约花了一分钟。
顺便提个趣事:在发布这篇博客前,一位同事让我验证这个计算。尽管这是教科书级别的题目,但我花了 3 个小时才搞定 —— 我得一步步追踪它的推导,确保所有正负号都正确,最后才能确认答案是对的。
那么,我们现在能做什么?模型思考一分钟,就能完成一些相当复杂的计算 —— 但我们的目标远不止于此。