主要观点总结
本文是对谷歌DeepMind前研究科学家Misha Laskin的访谈,他分享了关于大型语言模型(LLMs)和AI代理的见解。Misha强调,尽管LLMs在某些方面表现出色,但它们缺乏固定的真实奖励,需要强化学习来提高可靠性。他提到,未来的AI系统需要在规划和搜索能力上有所突破,并预测我们距离实现通用人工智能(AGI)只有3年左右的时间。Misha和他的合伙人Ioannis Antonoglou正致力于通过融合强化学习的搜索功能和LLMs,实现构建最优代理模型的愿景。
关键观点总结
关键观点1: 大型语言模型(LLMs)的挑战
Misha指出,尽管LLMs在聊天中表现出色,但它们缺乏固定的真实奖励,需要强化学习来提高可靠性。
关键观点2: 强化学习的重要性
Misha强调,未来的AI系统需要在规划和搜索能力上有所突破,以克服稀疏奖励的问题。
关键观点3: 通用人工智能(AGI)的预测
Misha预测,我们距离实现AGI可能只有3年左右的时间,这些AI将能够完成复杂任务,显著提升人类生产力。
关键观点4: 代理模型的构建
Misha和他的合伙人正致力于通过融合强化学习的搜索功能和LLMs,实现构建最优代理模型的愿景。
正文
25:41
AI代理的当前状态
29:17
AlphaGo、AlphaZero和Gemini的成就和挑战
32:58
探讨LLMs缺乏固定真实奖励的问题
44:12
AI代理的任务类别
45:54
如何吸引顶尖人才
50:52
距离拥有高能力AGI还需多久
56:01
快速问答环节
访谈约12,000 字,阅读约需 30分钟
文字整理
旁白:
在这一集的《训练数据》中,我们邀请到了Reflection AI的CEO及联合创始人Misha Laskin加入我们。Misha曾是DeepMind的研究科学家,他的联合创始人Ioannis Antonoglou则是AlphaGo和RHF在Gemini项目的主要开发者。
1、 与Ioannis Antonoglou一起进入AI领域
主持人:
Misha,首先,我们很想了解更多关于你的个人背景。你在俄罗斯出生,一岁时移居以色列,然后在九岁时移居美国华盛顿州。你的父母一直在推动科技和研究领域,我认为这激发了你对推进技术前沿和进入人工智能世界的热情。你能分享一下是什么激励你进入这个领域,以及在你的童年和成年期间有哪些事情给你带来了灵感吗?
Misha Laskin:
当然可以。你知道,当我父母从俄罗斯移民到以色列时,是苏联解体时期。他们几乎是一无所有地来到以色列,只带着300美元,而这些钱在他们刚一落地就被偷了,因为他们付了一个公寓的定金,然后那个公寓就消失了,我甚至不知道那里是否真有一个公寓。他们不会说希伯来语,于是决定在耶路撒冷希伯来大学追求化学博士学位。这并不是因为他们有什么特别的学术热情,而是因为以色列为俄罗斯移民提供了进一步教育的奖学金。我问过我的父母这件事,他们是如何逐渐爱上他们的专业的,因为他们在其中变得出色。我从他们那里学到的可能是,他们并不是特别热衷于化学,但随着他们对它的了解和深入,他们成了这个领域的大师,这对我影响很大。
移居到美国后,我的父母承诺我们搬到了一个美丽的州——华盛顿州,那里有山脉。我记得坐飞机时非常激动,我甚至在以色列向所有朋友炫耀。然而,飞机最终降落在了一个荒凉的地方,我问我的父母:“山在哪里?”他们说:“你在飞机上看到了山。”这个地方有点无聊,叫三联市(Tri-Cities),它的存在是因为曼哈顿计划,这里是钚富集的地点,名为汉福德核电站,与洛斯阿拉莫斯相似,都是上世纪40年代为特定项目建立的城市,地处偏僻。那里除了历史,没什么可做的。我在那里的生活让我有很多自由时间,最终让我对科学产生了兴趣,最开始是物理学。当我厌倦了电子游戏后,我找到了一些关于物理学的费曼讲座,费曼的讲解方式非常生动,即使是数学不太好的我也能理解世界的基本运作方式。
主持人:
这真是一段很有启发性的经历,谢谢你分享这些个人的故事。我们继续讨论你在Reflection AI的工作以及你如何看待AI未来的发展。
Misha Laskin:
这可能是最激励我的事情。我对理解事物如何在根本层面上运作产生了极大的兴趣,我想要处理那些根节点问题。就像我读到的那些例子,比如晶体管的发明,是由理论物理学家William Shockley发明的,或者GPS的工作原理,你需要进行相对论的计算,这源自于爱因斯坦的狭义相对论。我想要从事这样的工作,这就是为什么我选择了物理学。我在这个领域接受了教育,获得了博士学位。我认为可能关键的信息是,你不仅要处理根节点问题,你要处理你这个时代的根节点问题。你要从事那些现在可以解锁的事情。毫不奇怪,当你作为一名物理学家接受训练时,你会处理一些非常有趣的问题,学习大约100年前人们是如何思考物理的。100年前,物理是我们时代的根节点问题。这就是为什么我决定不从事物理学作为我的职业生涯。我做了一个180度的转变,想要做一些非常实际的事情,所以我开始了一家初创公司。当我在那里工作时,我注意到深度学习作为一个领域正在起飞,特别是当AlphaGo出现时,它给我留下了深刻的印象。AlphaGo的著名走法,第37步,看起来像是一个坏棋,但事实证明,10步之后,这实际上是将AlphaGo置于赢得比赛的最佳位置的最优走法。你可以感觉到这不仅仅是暴力破解,这个系统能够找到人们以前没有想到的创造性解决方案。这让我非常真切地感觉到,解决代理问题,这是第一个真正的大规模超人类代理。这就是为什么我进入AI领域,从第一天起就致力于构建代理。
主持人:
你的职业道路非线性,从物理学到AI,这种转变听起来非常引人入胜。你是如何找到自己的方向并最终进入这个领域的?
Misha Laskin:
是的,那是一条非线性的道路。我当时是一个局外人,那时候这个领域也很有竞争力。OpenAI在那个时候发布了一些研究请求,大约是2018或2019年。这些研究请求是他们希望其他人来研究的问题。当我看到这个列表时,这些问题已经有些过时了,我不认为他们真的还关心这些问题,但这给了我一些具体的问题可以去研究。我开始在其中一个问题上取得进展,我感觉我在取得进展,虽然我不知道我实际上取得了多少进展。我开始不断地向OpenAI的几位研究科学家发邮件提问,这实际上是在冷联系他们,直到我可能变得太烦人了,他们开始,嗯,我想说他们的回应相当优雅。我在那里建立了一些关系,其中一个人介绍我认识了Pieter Abbeel,他是伯克利的一位大牛,我认为他是我们这个时代最伟大的研究人员之一,专长在强化学习和机器人领域,但他的实验室几乎涉及一切,包括一些最有影响力的生成模型研究。其中一篇关键的扩散模型论文就出自他们手中。老实说,我很幸运,他愿意给我一个机会,将我带入了他的团队。真的,Pieter Abbeel教授没有任何理由这么做,当我站在另一边看待加入团队的申请者时,真的没有任何理由去接受一个未经审查的人。但他冒了这个险,我认为这是我进入这个领域的第一步。
主持人:
你和你的联合创始人Ioannis Antonoglou在DeepMind和Google进行了一些令人难以置信的项目,也许你可以给这里的朋友们介绍一下你们参与的一些项目,比如Gemini和AlphaGo,这些项目的关键学习点是什么,以及它们是如何推动你们的思考直到今天的?
Misha Laskin:
是的,Giannis是我进入AI领域的主要原因。他是AlphaGo的关键工程师之一,他当时在首尔,参与了与李世石的比赛。在AlphaGo之前,他还参与了一篇名为深度Q网络(DQN)的论文,这实际上是深度学习时代的第一款成功的代理,它能够玩Atari视频游戏,这开启了深度强化学习领域的整个研究。这是一个证明点,说明你可以从原始感官输入中学习如何在环境中可靠地行动,这在当时是完全不明确的。Ioannis还参与了AlphaGo及其后续的系列工作,如AlphaZero和一篇名为MuZero的论文。我认为这真正展示了你可以将这个想法推进多远,它与我们今天的大型语言模型相比,Alpha模型实际上非常小,但在这一点上却非常聪明。至少对我来说,AlphaGo的关键教训是在Rich Sutton的一篇著名论文中得到了概括,他是强化学习研究的一位重要人物。在那篇论文中,他提出了“苦涩的教训”的想法,基本上是说,如果你正在构建基于你自己理解的系统,这些系统可能会被那些自我学习的系统取代,或者是那些以可扩展方式利用计算能力的系统。
他认为,利用计算的两种方式一种是通过学习,即训练,就像我们今天认为的语言模型,它们主要通过在互联网上训练来利用计算。另一种方式是搜索,利用计算来展开一系列计划,然后选择最好的一个。AlphaGo实际上是这两个想法的结合。我仍然认为这是AI中最深刻的想法,将学习和搜索结合起来是以可扩展方式利用计算的最佳方式,这些因素共同产生了在围棋上超人类的代理。AlphaGo的问题是它只擅长一件事,我记得当时在该领域,感觉有些困顿,因为深度强化学习领域的目标是构建通用代理,超人类的通用代理,而我们达到的是超人类的非常狭窄的代理,并且没有明确的路径来使它们变得通用,因为它们的数据效率太低了。如果训练一个任务需要60亿步骤,那么你从哪里获取训练其他任务的数据呢?这是语言模型时代的一大突破,你可以将互联网上的所有数据视为许多任务的集合,比如Wikipedia是描述一些历史事件的任务,Stack Overflow是编码问题的问答任务,你可以将互联网视为一个庞大的多任务数据集,这是非常有趣的。