专栏名称: 管理智慧AI+
专注商业管理,每日发布管理、职场、互联网转型、社区实践方面的优秀文章,超过116万商业人士订阅。倾力打造的“千禾会”社区——汇聚国内数十位顶尖社区实践先行者,做你的社区实践伙伴,目前已正式上线!
目录
相关文章推荐
环球人力资源智库  ·  公司最该提拔的,是这一类员工 ·  昨天  
HR实名俱乐部  ·  汽车零部件2024年员工薪酬与人效:华域汽车 ... ·  昨天  
译中人  ·  中国人民大学留学生管理岗, 6.20前 ·  2 天前  
人力资源管理  ·  2025流行这件“连衣裙”,穿上太仙了!显瘦 ... ·  2 天前  
管理智慧AI+  ·  从方洪波访谈看企业变革的六大难题及解决方案 ·  3 天前  
51好读  ›  专栏  ›  管理智慧AI+

深度|OpenAI研究员Dan Roberts:AI主流认知将被打破,未来某个时点强化学习将完全主导...

管理智慧AI+  · 公众号  · 职场  · 2025-05-25 06:55

正文

请到「今天看啥」查看全文


不是在预训练的大蛋糕上加樱桃,而是用超大号的RL樱桃砸向整个蛋糕本身



01


AI 推理能力的飞跃:从训练期走向测试期的“思考”

主持人: Dan Roberts曾是Sequoia Capital的团队成员,在过去两年半到三年之间,他持续在帮助我们理解“reasoning”这件事。我有大约一年半的时间是跟他面对面共事,从他身上获益良多。所以我特别期待,他能将这些见解传递给更广泛的群体。我想先分享一个去年的回忆片段,那是在AI Ascent峰会上。当时他即将从Sequoia Capital离职,加入 OpenAI,不过这事当时还未公开。当时Alfred和Sam正在台上发言,Alfred突然顺嘴一提:“对了,顺便说一下,Dan要去OpenAI啦。”我当时刚好看着Dan的表情……呃,确实相当难堪。但总之很高兴你已经顺利度过了那个阶段,并愿意来和我们分享这背后的原因。

Dan Roberts: 谢谢,其实你刚才讲的正是我原本想用来开场的内容。那么我直接切入正题吧。正如你们许多人知道的,去年九月我们在OpenAI发布了一个名为“o1”的模型。接下来我引用一张来自我们博客文章的图表,让我直接进入主题。

图片来源:Sequoia Capital

这张图展示的是机器学习模型的性能表现。纵轴代表某项数学推理基准测试的得分,而横轴才是关键,显示的是训练所需的计算量。左边这张图说明,模型性能会随着训练计算量的增加而提升,这一点做AI训练的人都很熟悉 。但真正令人兴奋的是右侧这张图:它显示模型在测试阶段计算量提升时,性能也随之增强。我们教会它推理,而它也确实会花时间“思考”;而且思考时间越长,表现就越好 。这太酷了,我们甚至把这句话印在T恤上。因为这不仅意味着训练时的进步,现在连测试时的“Compute Use”也成了性能提升的新维度。那么这意味着什么?我们拥有了一个真正能推理的模型。来做个思维实验:我们最近发布了一个更强大的推理模型:o3版本。由于我本人学的是物理,因此我们用物理问题来测试它,比如quantum electrodynamics(量子电动力学),而且它还能进行可视化。我们在纸上写了一个问题,你可能见过类似演示,它会开始“思考”,可以反复自我检验、不断聚焦细节。

它思考了一会儿,然后开始作答,并最终给出了正确答案。整个过程持续大约一分钟。顺便一提,我在博客文章发布前被要求复核这个结果,我花了整整三小时。虽然这项计算可以在四本教材中找到,但我仍得逐步推导每一步,确保每个负号都没出错,并确认它算得没错。所以我们能做什么?我们可以用一分钟时间完成非常复杂的计算,这已经足够令人惊叹。 但问题是,我们要把这种能力带向哪里? 让我们做一个更进一步的思想实验。谁最擅长思想实验?当然是Albert Einstein。那么我们就以他为主题吧。假设我们回到1907年,那时Einstein还未正式开始广义相对论的研究。我们给他出一道终极期末考题:关于广义相对论。顺便说一句,这个场景其实是GPT-4.5编造的,但我可以确认这其实是个非常合理的提问方向。当然我们不会真去问Einstein本人,而是会构建一个‘Einstein v1907超级高配版’,确保它拥有最强的推理能力和最充分的计算资源,来帮我们回答这个问题。







请到「今天看啥」查看全文