主要观点总结
英伟达创始人黄仁勋在GTC 2025大会上对英伟达的最新技术进展进行了介绍。包括AI领域的Agentic AI的发展,新的数据中心操作系统Dynamo的推出,新一代AI芯片Blackwell Ultra的迭代更新,以及光芯片在AI计算领域的进展等。同时,英伟达在机器人生态领域也有显著的发展,如Omniverse和Cosmos平台的结合为机器人开发提供新的数据解决方案,以及新的物理引擎Newton的推出等。本文旨在探讨英伟达如何通过各种技术创新在AI和机器人领域建立完整的生态系统。
关键观点总结
关键观点1: Agentic AI的发展及在AI产业中的位置
黄仁勋介绍了英伟达的AI发展路径,强调了Agentic AI时代AI正在经历的新的拐点,其变得越来越智能、应用越来越广泛,同时需要更多的算力来支持。他通过对比Llama3.3和DeepSeek-R1模型来说明这一点。
关键观点2: 新数据中心操作系统Dynamo的推出及其对AI产业的影响
黄仁勋介绍了Dynamo如何优化AI工作的负载,提高模型的运行效率,并给出了具体的数据对比来证明Dynamo的优势。
关键观点3: 新一代AI芯片Blackwell Ultra的迭代更新及前景
英伟达推出了Blackwell Ultra AI工厂平台,旨在进一步提升AI推理能力。其下一代产品Rubin的架构和路线图也一并公布。
关键观点4: 光芯片在AI计算领域的进展
英伟达展示了其与台积电合作开发的硅光子技术及其在AI计算中的应用前景,包括用于数据中心的交换机产品。
关键观点5: 英伟达机器人生态的完整成型
英伟达在机器人领域的投入涵盖了数据、算法和算力。通过Omniverse和Cosmos平台的结合,为机器人开发者提供了全新的数据解决方案。此外,新推出的物理引擎Newton和GR00T N1模型展示了英伟达在机器人技术上的最新进展。
正文
用预训练放缓来审判英伟达还是
太早了,因为,Scaling Law(缩放定律)的故事还没有讲完。
长思考的模型对于 Token 的需求有数倍提升|图片来源:
英伟达
老黄表示,除了预训练和后训练(微调),测试时的Scaling Law才刚刚开始。(指模型推理阶段,动态分配计算资源以提升性能。例如,根据问题复杂度自动延长“思考时间”,或通过多次推理生成多个候选答案并择优输出)
在英伟达GTC的一篇官方博文中,Tokens(词元)被视为AI的语言与货币。它是AI在训练和推理过程中处理的数据单位,用在预测、生成和推理的每一个场景。
在老黄看来,加速AI工作负载的新型数据中心「AI 工厂」,就是要高效地处理这些tokens,将其从AI语言转换为AI货币——即智能。通过软硬一体优化,以更低的计算成本处理更多tokens。
如此一来,当更复杂、智能的推理模型,需要更快、更多地吞吐tokens时,如何能够有一套软硬兼施的计算系统让它更加高效,就成为AI应用能不能赚钱的关键。
这就是Agentic AI下,新黄氏定律曲线。
在性能、Token 和收入的多维度曲线下,厂商依然有盈利的机会|图片来源:英伟达
而要想达到「Revenue」那个切面、让AI应用实现商业化闭环,还得买英伟达,依旧是「买得多省得多」——不,现在是「买得多,赚得多」。
不久前,最了解英伟达的「DeepSeek靠软硬一体优化实现了550%的理论利润率」新闻刷屏。别忘了,了解英伟达的,也包括他自己。DeepSeek在Infra上的弹药,老黄也给你配齐了!
英伟达此次推出了一个新的「AI 工厂」引擎的操作系统,Dynamo。有了它,tokens的吞吐和延迟还能大幅优化!
黄仁勋讲解 Dynamo 如何实现 pd 分离 | 图片来源:
英伟达
为了让一个更大的模型,更高效地产出更多 token,本身已经成为了一个工程学问题。如何合理利用流水线并行、张量并行、专家并行、在途批量化、pd 分离、工作负载管理,如何管理 KV cache,各家都拿出了不同的方案。
英伟达此次也推出了自己的方案,Dynamo。黄仁勋把这个推理服务库比作新时代的 VMware,能够自动编排如何让 AI 在推理时代跑的更好——每秒能产生更多 token。
接下来黄仁勋简直在直接对需要采购英伟达的数据中心喊话了:未来的每一个数据中心都会受到功耗的限制。你的营收也会受到功耗的限制,你能使用的电力就能推算出潜在营收。
采用 Blackwell,你在同样电力下,能收获更好的性能;再加上Dynamo,Blackwell 将能进一步优化——Hopper 也能优化,但是没那么多。
按照英伟达的说法,使用 Dynamo 优化推理,能让 Blackwell 上的 DeepSeek-R1 的吞吐量提升 30 倍。Dynamo 也完全开源。
引入 FP4 和 Dynamo 后 Blackwell 与
Hopper
系列芯片性能的对比
|图片来源:
英伟达
黄仁勋直接帮企业算起了账:在同等功耗下,Blackwell 的性能比 Hopper 高出 4—5 倍的幅度。在「推理模型」的测试里,Blackwell 的性能大约是 Hopper 的 40 倍。
同样的 100 兆瓦数据中心,使用 H100 需要 1400 个机架,每秒可以生产 3 亿个 token,使用 GB200,只需要 600 个机架,每秒可以产生 120 亿个 token。
老黄:你买的越多,省的越多!
100 兆瓦数据中心算账题|图片来源:
英伟达