中金 | AI进化论（11）：GTC 2025，超摩尔定律延续，CPO正式亮相

中金点睛 · 公众号 · 金融 · 2025-03-28 07:33

正文

请到「今天看啥」查看全文

资料来源：Nvidia GTC 2025 Keynote，中金公司研究部

图表2：计算的拐点降至：2028年数据中心资本支出有望超过1万亿美元

资料来源：Nvidia GTC 2025 Keynote，Dell’ Oro，中金公司研究部

当下AI产业拐点已至，更多的商业落地机会推动推理任务占比在整个算力需求中持续增长。 根据NVIDIA管理层在GTC 2025 KEYNOTE上的展示，Blackwell GPU（以die计算）在头部四大云厂商的订单量已经超过Hopper一倍有余，我们认为推理需求在其中的比重呈现上升态势，并起到重要的贡献作用。 针对当下AI推理已进入商业化落地阶段的特点，系统吞吐和单用户响应能力是难以兼顾的痛点（如图3所示）。 如何设置batch size（批处理大小）来兼顾系统吞吐及单用户响应能力，实现硬件资源的最大化利用，进而获得最低的算力成本是各厂商努力的方向。 本届GTC大会发布了名为Dynamo的推理软件，来优化推理任务。 Dynamo可以协调并加速数千个GPU之间的推理通信，特别是在当下的分布式推理时代，分布式推理优化能力变得非常重要。为确保Prefill和Decode阶段的特定需求得到单独优化，并更大程度利用GPU资源，Dynamo也使用了我们在 AI进化论（2）报告中所分析到的，与DeepSeek团队做法类似的Prefill/Decode分离模式。

图表3：大规模推理任务需要平衡单用户响应速度和整体吞吐量

资料来源：Nvidia GTC 2025 Keynote，中金公司研究部

硬件更新之芯片&服务器：超摩尔定律路径持续，系统级产品规格不断扩大

本届GTC大会英伟达公布了未来三年的主要数据中心GPU及其对应的系统级产品。 从FP4稠密算力维度来看，保持了三年翻10x的高速迭代。 从GPU计数方面，此次大会主旨演讲中NVIDIA CEO Jensen Huang对相关问题做了厘清，NVIDIA今后将以GPU die的数量来命名其系统及产品，而非以GPU的封装个数计算（即新的“Jensen’s Math”）。根据公司未来三年产品路线图：

► Blackwell Ultra： 相较Blackwell系列首代芯片（B200系列），预计2H25交付的Ultra系列芯片（即B300系列）采用了全新设计，通过引入新注意力机制指令集来实现部分硬件加速，FP4精度下的算力相较B200系列提升50%，内存配置也升级至288GB HBM3E（8个12层HBM3E堆叠），较B200系列实现翻倍。

► Vera Rubin/Vera Rubin Ultra： 自2H26起全新一代的Vera Rubin GPU有望成为NVIDIA的主力产品。相较Blackwell，Vera Rubin采用了全新的TSMC 3nm工艺节点（TSMC N3P）制造，在单die性能上相较上代产品实现明显提升。另外，根据SemiAnalysis的分析，从Rubin系列起，NVIDIA有望释放I/O die部分到独立的小芯粒（Chiplet）上，以此来增加更多有效的计算单元面积。系统级产品方面， Vera Rubin有望以NVL 144架构起步（实际依然为72个双Die GPU封装，与Blackwell NVL 72产品架构类似），且CPU采用了全新的Vera架构设计，包含88个NVIDIA自行定制的Arm核心，对应176线程，并提供与GPU间高速互联达1.8TB/s的带宽，相较Grace CPU和Blackwell GPU的互联带宽也呈现了一倍提升。进入2H27，有望推出Rubin Ultra系列产品，相较Rubin性能有望实现进一步跨越，主要包含了采用4x Chiplet设计（之前最多为2个）+16个HBM堆栈（之前最多为8个），实现了FP4稠密算力再翻倍的性能。从机柜产品设计来看，有望在2H27推出集成度高达576（对应144个封装单元）die的产品，即NVL 576。机架的部署模式有望演化为正交型，并可能采用PTFE背板代替现有连接方式。

► Feymann： 有望于2028年推出的产品，继续与Vera CPU搭配并迎来HBM升级。

图表4：NVIDIA 数据中心GPU产品对比（芯片及封装层级）