专栏名称: 极客公园
科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。
目录
相关文章推荐
51好读  ›  专栏  ›  极客公园

黄仁勋 2 个半小时演讲,英伟达已经进入「Agentic AI」时代

极客公园  · 公众号  · 科技媒体  · 2025-03-19 07:08

主要观点总结

英伟达创始人黄仁勋在GTC 2025大会上对英伟达的最新技术进展进行了介绍。包括AI领域的Agentic AI的发展,新的数据中心操作系统Dynamo的推出,新一代AI芯片Blackwell Ultra的迭代更新,以及光芯片在AI计算领域的进展等。同时,英伟达在机器人生态领域也有显著的发展,如Omniverse和Cosmos平台的结合为机器人开发提供新的数据解决方案,以及新的物理引擎Newton的推出等。本文旨在探讨英伟达如何通过各种技术创新在AI和机器人领域建立完整的生态系统。

关键观点总结

关键观点1: Agentic AI的发展及在AI产业中的位置

黄仁勋介绍了英伟达的AI发展路径,强调了Agentic AI时代AI正在经历的新的拐点,其变得越来越智能、应用越来越广泛,同时需要更多的算力来支持。他通过对比Llama3.3和DeepSeek-R1模型来说明这一点。

关键观点2: 新数据中心操作系统Dynamo的推出及其对AI产业的影响

黄仁勋介绍了Dynamo如何优化AI工作的负载,提高模型的运行效率,并给出了具体的数据对比来证明Dynamo的优势。

关键观点3: 新一代AI芯片Blackwell Ultra的迭代更新及前景

英伟达推出了Blackwell Ultra AI工厂平台,旨在进一步提升AI推理能力。其下一代产品Rubin的架构和路线图也一并公布。

关键观点4: 光芯片在AI计算领域的进展

英伟达展示了其与台积电合作开发的硅光子技术及其在AI计算中的应用前景,包括用于数据中心的交换机产品。

关键观点5: 英伟达机器人生态的完整成型

英伟达在机器人领域的投入涵盖了数据、算法和算力。通过Omniverse和Cosmos平台的结合,为机器人开发者提供了全新的数据解决方案。此外,新推出的物理引擎Newton和GR00T N1模型展示了英伟达在机器人技术上的最新进展。


正文

请到「今天看啥」查看全文


用预训练放缓来审判英伟达还是 太早了,因为,Scaling Law(缩放定律)的故事还没有讲完。

长思考的模型对于 Token 的需求有数倍提升|图片来源: 英伟达

老黄表示,除了预训练和后训练(微调),测试时的Scaling Law才刚刚开始。(指模型推理阶段,动态分配计算资源以提升性能。例如,根据问题复杂度自动延长“思考时间”,或通过多次推理生成多个候选答案并择优输出)

在英伟达GTC的一篇官方博文中,Tokens(词元)被视为AI的语言与货币。它是AI在训练和推理过程中处理的数据单位,用在预测、生成和推理的每一个场景。

在老黄看来,加速AI工作负载的新型数据中心「AI 工厂」,就是要高效地处理这些tokens,将其从AI语言转换为AI货币——即智能。通过软硬一体优化,以更低的计算成本处理更多tokens。

如此一来,当更复杂、智能的推理模型,需要更快、更多地吞吐tokens时,如何能够有一套软硬兼施的计算系统让它更加高效,就成为AI应用能不能赚钱的关键。

这就是Agentic AI下,新黄氏定律曲线。

在性能、Token 和收入的多维度曲线下,厂商依然有盈利的机会|图片来源:英伟达

而要想达到「Revenue」那个切面、让AI应用实现商业化闭环,还得买英伟达,依旧是「买得多省得多」——不,现在是「买得多,赚得多」。

02

「AI工厂」的操作系统——Dynamo

不久前,最了解英伟达的「DeepSeek靠软硬一体优化实现了550%的理论利润率」新闻刷屏。别忘了,了解英伟达的,也包括他自己。DeepSeek在Infra上的弹药,老黄也给你配齐了!

英伟达此次推出了一个新的「AI 工厂」引擎的操作系统,Dynamo。有了它,tokens的吞吐和延迟还能大幅优化!

黄仁勋讲解 Dynamo 如何实现 pd 分离 | 图片来源: 英伟达

为了让一个更大的模型,更高效地产出更多 token,本身已经成为了一个工程学问题。如何合理利用流水线并行、张量并行、专家并行、在途批量化、pd 分离、工作负载管理,如何管理 KV cache,各家都拿出了不同的方案。

英伟达此次也推出了自己的方案,Dynamo。黄仁勋把这个推理服务库比作新时代的 VMware,能够自动编排如何让 AI 在推理时代跑的更好——每秒能产生更多 token。

接下来黄仁勋简直在直接对需要采购英伟达的数据中心喊话了:未来的每一个数据中心都会受到功耗的限制。你的营收也会受到功耗的限制,你能使用的电力就能推算出潜在营收。

采用 Blackwell,你在同样电力下,能收获更好的性能;再加上Dynamo,Blackwell 将能进一步优化——Hopper 也能优化,但是没那么多。

按照英伟达的说法,使用 Dynamo 优化推理,能让  Blackwell 上的 DeepSeek-R1 的吞吐量提升 30 倍。Dynamo 也完全开源。

引入 FP4 和 Dynamo 后 Blackwell 与 Hopper 系列芯片性能的对比 |图片来源: 英伟达

黄仁勋直接帮企业算起了账:在同等功耗下,Blackwell 的性能比 Hopper 高出 4—5 倍的幅度。在「推理模型」的测试里,Blackwell 的性能大约是 Hopper 的 40 倍。

同样的 100 兆瓦数据中心,使用 H100 需要 1400 个机架,每秒可以生产 3 亿个 token,使用 GB200,只需要 600 个机架,每秒可以产生 120 亿个 token。

老黄:你买的越多,省的越多!

100 兆瓦数据中心算账题|图片来源: 英伟达


03







请到「今天看啥」查看全文