主要观点总结
英伟达CEO黄仁勋接受访谈,回顾了公司如何由游戏起步,利用GPU的并行处理能力推动计算领域重大突破,并预测了AI未来的应用科学时代。他强调AI将渗透各行各业,未来移动设备将全部成为机器人,人类将成为“超人”。黄仁勋也分享了他对AI的担忧,如偏见、有害性、幻觉等,并呼吁提高AI计算的能源效率。他讨论了Transformer在AI架构中的角色,认为未来会有与现在截然不同的新架构。黄仁勋对英伟达的技术创新感到自豪,并期待其技术影响未来。
关键观点总结
关键观点1: 英伟达的发展历程
英伟达从游戏起步,利用GPU的并行处理能力推动计算领域重大突破,并预测了AI未来的应用科学时代。
关键观点2: AI的未来
黄仁勋认为AI将渗透各行各业,未来移动设备将全部成为机器人,人类将成为“超人”。
关键观点3: 对AI的担忧
黄仁勋分享了对AI的担忧,如偏见、有害性、幻觉等,并呼吁提高AI计算的能源效率。
关键观点4: Transformer在AI架构中的角色
黄仁勋讨论了Transformer在AI架构中的角色,认为未来会有与现在截然不同的新架构。
关键观点5: 英伟达的技术创新
黄仁勋对英伟达的技术创新感到自豪,并期待其技术影响未来。
正文
主持人:
2012年,一个由三名研究人员
(分别是Ilya Sutskever、Alex Krizhevsky 和 Geoff Hinton,如今他们已成为AI领域大名鼎鼎的人物了 )
组成的小组,提交了名为 AlexNet 的参赛作品,参加了著名的 ImageNet 竞赛。
该竞赛旨在创建能够识别图像并进行分类标记的计算机系统。他们的作品直接击败了所有竞争对手,以极低的误差率震惊了所有人,它被称为 AlexNet,是一个卷积神经网络。
它之所以如此出色,是因为他们使用了海量的数据进行系统训练,并且这项工作是在 NVIDIA GPU 上完成的。
突然之间,GPU 不再仅仅是使计算机运行更快、效率更高的工具,而是成为了全新计算模式的引擎。我们正在从使用逐步指令引导计算机,转变为通过展示大量示例来训练计算机学习。
2012 年的这个时刻,是否真正开启了我们现在所看到的人工智能的巨大变革?您能否从您的角度,来描述一下那一刻的情景,以及您认为它对我们所有人的未来意味着什么?
黄仁勋:
当你创造像 CUDA 这样的新事物时,即使你建造了它,他们也可能不会来,这是悲观者的观点;但乐观主义者的观点会说,但如果你不建造它,它们就不能来。
这通常是我们看待世界的方式,我们必须凭直觉来推断为什么这会非常有用。
事实上,在2012年,多伦多大学的 Ilya Sutskever、Alex Krizhevsky 和 Geoff Hinton 在他们所在的实验室开始使用 GeForce GTX 580,因为他们了解到 CUDA,并认为 CUDA 可以作为训练 AlexNet 的并行处理器,所以我们的灵感是 GeForce 可以成为将这种并行架构带入世界的载体。
与此同时,我们正在公司内部努力解决计算机视觉问题,并且努力使 CUDA 成为一个好的计算机视觉处理器,我们对内部计算机视觉的早期开发进度感到沮丧,并且 CUDA 无法提供更多的帮助。
突然之间,我们看到了 AlexNet,这是一种与以前的计算机视觉算法完全不同的新算法,它在计算机视觉的能力方面取得了巨大的飞跃。
当我们看到这一点时,一部分是出于兴趣,另一部分是因为我们自己也在因工作推进不顺利而挣扎。所以当看到 AlexNet 时,我们受到了启发。
但我要说,最大的突破是当我们看到 AlexNet 时,我们问自己,AlexNet 能走多远?如果它能用计算机视觉做到这一点,它能走多远?如果它能达到我们认为它能达到的极限,那对计算机行业意味着什么?那对计算机架构意味着什么?
我们有理由推断,如果机器学习、深度学习架构可以扩展,那么绝大多数机器学习问题都可以用深度神经网络来覆盖。
我们可以用机器学习解决的问题类型如此之多,以至于它有可能彻底重塑整个计算机行业,这促使我们重新设计了整个计算堆栈,这就是 DGX 的由来,而这个小小的 DGX 就坐在这里,这一切都来自于我们逐层重新设计整个计算堆栈的观察。
你知道,自 IBM System 360 推出现代通用计算 65 年以来,我们已经彻底重塑了我们所知的计算方式。
主持人:
把这看作一个完整的故事,
所以并行处理重新塑造了现代游戏,并彻底改变了一个完整的行业,然后那种并行处理的计算方式开始在不同的行业中使用。
你通过构建 CUDA 来投资它,
然后 CUDA 和 GPU 的使用使得神经网络和机器学习飞速的发展,并开始了一场我们现在看到的计算革命。
现在:世界正在发生什么?
人工智能和深度学习具备了一项革命性能力:它可以学习并转化几乎任何形式的数据
1、英伟达的核心信念
黄仁勋:
计算机视觉、语音识别、语言理解——这些曾经被认为无解的人工智能难题,在短短几年间相继被攻克。一个接一个地被突破,令人惊叹不已。
主持人:
是的,我们看到你很早以前就为此做出风险很高的赌注。我作为一个外行人,认为这需要很长的时间才能实现,你坚持了多久?
黄仁勋:
10 年。
主持人:
这 10 年你感觉怎样?
黄仁勋:
这是个好问题。首先你必须有核心信念。
我们应当深入理解行业和科学,但最根本的是要始终遵循第一性原理思维。
在探索的过程中,有时我们能找到证据证明方向正确;但更多时候,走了很长的路却找不到任何验证,这时就需要适时调整航向。
为什么我们能够长期坚持?答案很简单:因为我们对这个方向深信不疑,所以没有理由不继续前行。
我对英伟达的信念已经持续了 30 多年。我坚信我们在革新计算领域所做的一切,不仅在今天依然有效,而且比过去任何时候都更具价值。
当然,前进的道路上难免会遇到重重挑战。但你必须对未来有信念,持续投资自己。正是这份坚定的信念,驱使我们投入数百亿美元,最终实现了目标。那确实是漫长的 10 年历程,但整个过程充满快乐。
主持人:
你如何总结这 10 年的核心信念?计算机究竟应该如何为人类工作?对未来几十年,你又有哪些判断?
黄仁勋:
第一个核心信念聚焦于加速计算,
特别是并行计算与通用计算的结合。通过将多个处理器结合在一起,我们能够实现计算加速。
这个理念我至今依然坚信不疑。
第二个核心信念源于对深度神经网络(DNN)潜力的洞察。
自 2012 年问世以来,这些深度神经网络展现出了强大的能力,能够从各类数据中提取模式和关联。更重要的是,这些网络具有优秀的可扩展性——通过扩大规模,它们能够学习更为精细的特征;通过增加深度或宽度,它们的性能也能相应提升。这种架构上的可扩展性已经在实践中得到了充分验证。
经验表明,模型和数据规模的增长与知识获取量呈正相关。那么,这种增长是否存在上限?
除非我们遇到物理、架构或数学层面的根本限制,否则这种扩展似乎可以持续下去。
这就引出了一个关键问题:
我们究竟能从数据中学到什么?从经验中获取什么?实际上,数据就是人类经验的数字化呈现。
我们已经看到,机器可以通过图像学习物体识别,通过声波掌握语音辨识,甚至仅仅通过研究海量的文字符号就能理解语言、词汇和语法规则。
如今,我们已经证实人工智能和深度学习具备了一项革命性能力,它可以学习并转化几乎任何形式的数据。
这种能力意味着什么?让我们来看看这些令人振奋的可能性:
在文本领域,AI可以实现文本间的转化,比如文章摘要和语言翻译;在视觉领域,它能将文本转化为图像
(图像生成)
,或将图像转化为文本
(图像描述)
;在生物领域,它甚至能够将氨基酸序列转换为精确的蛋白质结构。
展望未来,我们还将实现从蛋白质到自然语言的转换,使我们能够提出诸如"这种蛋白质的功能是什么"或"请举例说明具有特定特性的蛋白质"这样的问题。
既然AI已经可以将文字转化为视频,那么将文字转化为机器人的动作指令又有何不同?从计算机的底层逻辑来看,这些转换本质上是相通的。
这打开了一扇通向充满机遇与挑战的大门,正是这些无限可能让我们对未来充满期待。
2、为什么此时此刻如此与众不同?
主持人:
我感觉我们正站在一场巨大变革的风口浪尖上。回顾过去十年,我们确实经历了翻天覆地的变化。但展望未来十年,我发现自己已经无法准确预测,我们将如何运用当下正在开发的这些技术。
黄仁勋:
你的感受非常准确。这种难以预测的感觉源于一个重要的转折点:
过去十年主要聚焦于人工智能的基础科学研究。而接下来的十年,虽然人工智能的科学突破仍将持续,但更具标志性的是我们即将进入人工智能的应用科学时代。