黄仁勋 2 个半小时演讲，英伟达已经进入「Agentic AI」时代

极客公园 · 公众号 · 科技媒体 · 2025-03-19 07:08

主要观点总结

英伟达创始人黄仁勋在GTC 2025大会上对英伟达的最新技术进展进行了介绍。包括AI领域的Agentic AI的发展，新的数据中心操作系统Dynamo的推出，新一代AI芯片Blackwell Ultra的迭代更新，以及光芯片在AI计算领域的进展等。同时，英伟达在机器人生态领域也有显著的发展，如Omniverse和Cosmos平台的结合为机器人开发提供新的数据解决方案，以及新的物理引擎Newton的推出等。本文旨在探讨英伟达如何通过各种技术创新在AI和机器人领域建立完整的生态系统。

关键观点总结

关键观点1: Agentic AI的发展及在AI产业中的位置

黄仁勋介绍了英伟达的AI发展路径，强调了Agentic AI时代AI正在经历的新的拐点，其变得越来越智能、应用越来越广泛，同时需要更多的算力来支持。他通过对比Llama3.3和DeepSeek-R1模型来说明这一点。

关键观点2: 新数据中心操作系统Dynamo的推出及其对AI产业的影响

黄仁勋介绍了Dynamo如何优化AI工作的负载，提高模型的运行效率，并给出了具体的数据对比来证明Dynamo的优势。

关键观点3: 新一代AI芯片Blackwell Ultra的迭代更新及前景

英伟达推出了Blackwell Ultra AI工厂平台，旨在进一步提升AI推理能力。其下一代产品Rubin的架构和路线图也一并公布。

关键观点4: 光芯片在AI计算领域的进展

英伟达展示了其与台积电合作开发的硅光子技术及其在AI计算中的应用前景，包括用于数据中心的交换机产品。

关键观点5: 英伟达机器人生态的完整成型

英伟达在机器人领域的投入涵盖了数据、算法和算力。通过Omniverse和Cosmos平台的结合，为机器人开发者提供了全新的数据解决方案。此外，新推出的物理引擎Newton和GR00T N1模型展示了英伟达在机器人技术上的最新进展。

正文

请到「今天看啥」查看全文

用预训练放缓来审判英伟达还是太早了，因为，Scaling Law（缩放定律）的故事还没有讲完。

长思考的模型对于 Token 的需求有数倍提升｜图片来源：英伟达

老黄表示，除了预训练和后训练（微调），测试时的Scaling Law才刚刚开始。（指模型推理阶段，动态分配计算资源以提升性能。例如，根据问题复杂度自动延长“思考时间”，或通过多次推理生成多个候选答案并择优输出）

在英伟达GTC的一篇官方博文中，Tokens（词元）被视为AI的语言与货币。它是AI在训练和推理过程中处理的数据单位，用在预测、生成和推理的每一个场景。

在老黄看来，加速AI工作负载的新型数据中心「AI 工厂」，就是要高效地处理这些tokens，将其从AI语言转换为AI货币——即智能。通过软硬一体优化，以更低的计算成本处理更多tokens。

如此一来，当更复杂、智能的推理模型，需要更快、更多地吞吐tokens时，如何能够有一套软硬兼施的计算系统让它更加高效，就成为AI应用能不能赚钱的关键。

这就是Agentic AI下，新黄氏定律曲线。

在性能、Token 和收入的多维度曲线下，厂商依然有盈利的机会｜图片来源：英伟达

而要想达到「Revenue」那个切面、让AI应用实现商业化闭环，还得买英伟达，依旧是「买得多省得多」——不，现在是「买得多，赚得多」。

「AI工厂」的操作系统——Dynamo

不久前，最了解英伟达的「DeepSeek靠软硬一体优化实现了550%的理论利润率」新闻刷屏。别忘了，了解英伟达的，也包括他自己。DeepSeek在Infra上的弹药，老黄也给你配齐了！

英伟达此次推出了一个新的「AI 工厂」引擎的操作系统，Dynamo。有了它，tokens的吞吐和延迟还能大幅优化！

黄仁勋讲解 Dynamo 如何实现 pd 分离｜图片来源：英伟达

为了让一个更大的模型，更高效地产出更多 token，本身已经成为了一个工程学问题。如何合理利用流水线并行、张量并行、专家并行、在途批量化、pd 分离、工作负载管理，如何管理 KV cache，各家都拿出了不同的方案。

英伟达此次也推出了自己的方案，Dynamo。黄仁勋把这个推理服务库比作新时代的 VMware，能够自动编排如何让 AI 在推理时代跑的更好——每秒能产生更多 token。

接下来黄仁勋简直在直接对需要采购英伟达的数据中心喊话了：未来的每一个数据中心都会受到功耗的限制。你的营收也会受到功耗的限制，你能使用的电力就能推算出潜在营收。

采用 Blackwell，你在同样电力下，能收获更好的性能；再加上Dynamo，Blackwell 将能进一步优化——Hopper 也能优化，但是没那么多。

按照英伟达的说法，使用 Dynamo 优化推理，能让 Blackwell 上的 DeepSeek-R1 的吞吐量提升 30 倍。Dynamo 也完全开源。

引入 FP4 和 Dynamo 后 Blackwell 与 Hopper 系列芯片性能的对比｜图片来源：英伟达

黄仁勋直接帮企业算起了账：在同等功耗下，Blackwell 的性能比 Hopper 高出 4—5 倍的幅度。在「推理模型」的测试里，Blackwell 的性能大约是 Hopper 的 40 倍。

同样的 100 兆瓦数据中心，使用 H100 需要 1400 个机架，每秒可以生产 3 亿个 token，使用 GB200，只需要 600 个机架，每秒可以产生 120 亿个 token。

老黄：你买的越多，省的越多！

100 兆瓦数据中心算账题｜图片来源：英伟达