专栏名称: 腾讯科技
只供应最有营养的科技大餐!
目录
相关文章推荐
51好读  ›  专栏  ›  腾讯科技

“AI大神”Ilya炸裂宣判:大模型预训练时代即将终结!(附演讲视频+实录)

腾讯科技  · 公众号  · 科技媒体  · 2024-12-14 21:34

主要观点总结

Ilya Gavrielovich(Ilya)在NeuralPS2024上进行了备受关注的主题演讲,主要回顾了深度学习的早期假设和自回归模型的贡献与局限,同时探讨了预训练时代的终结和未来发展方向。他强调了数据在人工智能中的重要作用,并推测了未来超级智能的发展及其带来的挑战。演讲中涉及了合成数据、推理时间计算和从生物学中汲取灵感等可能性。他还探讨了未来人工智能系统的特性,如代理能力和自我意识。最后,他回答了关于自动校正、激励机制、语言模型的泛化等问题。

关键观点总结

关键观点1: 深度学习的早期假设

Ilya回顾了十年前他们在NeurIPS会议上关于自回归模型的一些观点,当时的一些观点是正确的,但也有观点是错误的。正确观点包括自回归模型能够捕捉序列的正确分布,这一观点推动了自回归模型在机器翻译等领域的应用,并最终促成了预训练时代的到来。错误观点是流水线并行化是明智的,但现在看来这并不是最佳选择。

关键观点2: 预训练时代的终结

Ilya认为预训练时代即将走向终结,虽然计算能力在增长,但数据量却没有相应的增长。他将数据比喻为人工智能的“化石燃料”,认为我们已经达到了数据的巅峰,再也不会有更多的数据。预训练时代结束后,深度学习将走向何方?Ilya提出了几种可能性,包括代理、合成数据、推理时间计算和从生物学中汲取灵感等。

关键观点3: 超级智能的概念

Ilya在演讲中谈到了超级智能的概念,并认为这是深度学习发展的终极目标。他强调了未来超级智能的关键在于找到新的方法来克服数据量的限制,这需要探索新的学习算法,例如能够从有限数据中学习的算法,以及更高效地利用计算资源的算法。

关键观点4: 未来人工智能系统的特性

Ilya认为未来的人工智能系统将会拥有强大的代理能力、自我意识和推理能力。这样的系统将能够主动地进行推理、规划和行动,理解和处理复杂的现实世界问题,并做出自主的决策。然而,这样的系统也会带来一些挑战,如不可预测性和控制问题。


正文

请到「今天看啥」查看全文


未来| 超智能:深度学习的终极目标?

Ilya 在演讲中谈到了超级智能的概念,并认为这是深度学习发展的终极目标。虽然他没有详细阐述超级智能的定义和实现路径,但从他的演讲中,我们可以总结出他对超级智能的一些理解:

  • 与人类智能有质的区别:超级智能并非简单的人类智能的增强版,而是拥有全新的能力和属性。这就像类人猿的大脑进化与其他哺乳动物的显著差异一样,超级智能也可能以一种我们无法预见的方式超越人类智能。

  • 具备强大的代理能力:超级智能将不再是被动的信息处理系统,而是能够主动地进行推理、规划和行动。他们将能够理解和处理复杂的现实世界问题,并做出自主的决策。

  • 拥有自我意识:Ilya 认为,超级智能可能会发展出自我意识, 这将使其拥有更强大的学习和适应能力。 自我意识也将使超级智能能够更好地理解人类和其他智能体,并与之互动。

Ilya 并没有给出超级智能何时会出现的具体时间,但他认为这只是一个时间问题。他强调,我们应该认真思考超级智能带来的挑战,例如:

  • 超级智能的不可预测性:超级智能的推理能力将远超人类, 其行为和决策将变得难以预测。

  • 如何控制超级智能: 如何确保超级智能的行为符合人类的利益和价值观,是一个至关重要的问题。

  • 超级智能与人类的关系: 超级智能的出现将重新定义人类在宇宙中的位置, 我们需要思考如何与超级智能共存。

演讲全文·Web3天空之城书面版

我想感谢组织者选择这篇论文获得这个奖项。这真的非常好。我还要感谢我出色的合著者和合作伙伴,Oriol Vinyals 和 Quoc Le,他们刚才就在你面前。

你们现在看到的是一张图片,一张截图,来自十年前2014年在蒙特利尔 NeurIPS 会议上的类似演讲。这是一个更加无邪的时代。这是我们,当时拍摄的照片。这里是之前的场景。顺便说一下,这里是之后。

现在我们有了我经验丰富的,可能是护目镜的视角。但在这里,我想谈谈这项工作的内容,或许进行一个十年的回顾。因为在这项工作中的很多观点是正确的,但有些则不是。我们可以回顾这些观点,看看发生了什么,以及它是如何温和地演变成我们今天所处的位置。

那么让我们先谈谈我们做了什么。我们将通过展示十年前同一次演讲的幻灯片来进行总结。我们工作的总结如下三点:这是一个基于文本训练的自回归模型,一个大型神经网络,还有一个大型数据集。现在让我们更深入地探讨一些细节。这是一张十年前的幻灯片,还不错。我们在这里讨论的是深度学习假设:如果你有一个十层的大型神经网络,它可以在一瞬间完成任何人类能够完成的事情。

为什么我们如此强调人类在短短一秒钟内能够做的事情?为什么特别是这个内容?如果你相信深度学习的教义,或认为人工神经元和生物神经元是相似的,或者至少差异不大,并且相信真实的神经元比我们人类快速完成的任何事情都要慢,我甚至是指全世界的某一个人。如果全世界有一个人能在一瞬间完成某项任务,那么一个十层的神经网络也可以做到。这就成立了。你只需将他们的连接提取出来并嵌入到你的人工神经网络中。

这就是动机。任何一个人能够在一瞬间完成的事情,一个大型的十层神经网络也能够做到。我们专注于十层神经网络是因为当时我们只知道如何训练这样的网络。如果在层数上有所突破,就可以做更多的事情。但在那时我们只能做到十层,这就是为什么我们强调人类在瞬间内能做的任何事情。这是演讲中的另一张幻灯片,说明我们主要想法的一张幻灯片。你可能能够识别出两个东西,或者至少一个东西。你可能会意识到这里发生了一些自回归的事情。

它到底在说什么?这张幻灯片到底在说什么?

这张幻灯片讲的是,如果你有一个自回归模型,并且它能很好地预测下一个标记,那么它实际上能捕捉到接下来序列的正确分布。而这在当时是相对较新的事情。这并不是字面意义上的第一个自回归神经网络,但我认为它是第一个我们真正相信如果你训练得很好,那么你将获得任何你想要的自回归神经网络。在我们的案例中,彼时的任务是谦逊的,今天看来依旧谦逊,但当时却是极为大胆的翻译工作。







请到「今天看啥」查看全文