专栏名称: 中金点睛
图文并茂讲解中金深度研究报告
目录
相关文章推荐
北京证券业协会  ·  【投诉调解】北京证券业协会赴首创证券开展纠纷 ... ·  2 小时前  
投研圣剑午盘  ·  完了,TM全完了! ·  22 小时前  
投研圣剑午盘  ·  完了,TM全完了! ·  22 小时前  
中金点睛  ·  中金 | ... ·  昨天  
国家金融监督管理总局  ·  李云泽会见英国金融行为监管局首席执行官亚迪 ·  昨天  
国家金融监督管理总局  ·  李云泽会见英国金融行为监管局首席执行官亚迪 ·  昨天  
51好读  ›  专栏  ›  中金点睛

中金 | AI进化论(11):GTC 2025,超摩尔定律延续,CPO正式亮相

中金点睛  · 公众号  · 金融  · 2025-03-28 07:33

正文

请到「今天看啥」查看全文


资料来源:Nvidia GTC 2025 Keynote,中金公司研究部


图表2:计算的拐点降至:2028年数据中心资本支出有望超过1万亿美元

资料来源:Nvidia GTC 2025 Keynote,Dell’ Oro,中金公司研究部


当下AI产业拐点已至,更多的商业落地机会推动推理任务占比在整个算力需求中持续增长。 根据NVIDIA管理层在GTC 2025 KEYNOTE上的展示,Blackwell GPU(以die计算)在头部四大云厂商的订单量已经超过Hopper一倍有余,我们认为推理需求在其中的比重呈现上升态势,并起到重要的贡献作用。 针对当下AI推理已进入商业化落地阶段的特点,系统吞吐和单用户响应能力是难以兼顾的痛点(如图3所示)。 如何设置batch size(批处理大小)来兼顾系统吞吐及单用户响应能力,实现硬件资源的最大化利用,进而获得最低的算力成本是各厂商努力的方向。 本届GTC大会发布了名为Dynamo的推理软件,来优化推理任务。 Dynamo可以协调并加速数千个GPU之间的推理通信,特别是在当下的分布式推理时代,分布式推理优化能力变得非常重要。为确保Prefill和Decode阶段的特定需求得到单独优化,并更大程度利用GPU资源,Dynamo也使用了我们在 AI进化论(2) 报告中所分析到的,与DeepSeek团队做法类似的Prefill/Decode分离模式。


图表3:大规模推理任务需要平衡单用户响应速度和整体吞吐量

资料来源:Nvidia GTC   2025 Keynote,中金公司研究部


硬件更新之芯片&服务器:超摩尔定律路径持续,系统级产品规格不断扩大



本届GTC大会英伟达公布了未来三年的主要数据中心GPU及其对应的系统级产品。 从FP4稠密算力维度来看,保持了三年翻10x的高速迭代。 从GPU计数方面,此次大会主旨演讲中NVIDIA CEO Jensen Huang对相关问题做了厘清,NVIDIA今后将以GPU die的数量来命名其系统及产品,而非以GPU的封装个数计算(即新的“Jensen’s Math”)。根据公司未来三年产品路线图:


► Blackwell Ultra: 相较Blackwell系列首代芯片(B200系列),预计2H25交付的Ultra系列芯片(即B300系列)采用了全新设计,通过引入新注意力机制指令集来实现部分硬件加速,FP4精度下的算力相较B200系列提升50%,内存配置也升级至288GB HBM3E(8个12层HBM3E堆叠),较B200系列实现翻倍。


► Vera Rubin/Vera Rubin Ultra: 自2H26起全新一代的Vera Rubin GPU有望成为NVIDIA的主力产品。相较Blackwell,Vera Rubin采用了全新的TSMC 3nm工艺节点(TSMC N3P)制造,在单die性能上相较上代产品实现明显提升。另外,根据SemiAnalysis的分析,从Rubin系列起,NVIDIA有望释放I/O die部分到独立的小芯粒(Chiplet)上,以此来增加更多有效的计算单元面积。系统级产品方面, Vera Rubin有望以NVL 144架构起步(实际依然为72个双Die GPU封装,与Blackwell NVL 72产品架构类似),且CPU采用了全新的Vera架构设计,包含88个NVIDIA自行定制的Arm核心,对应176线程,并提供与GPU间高速互联达1.8TB/s的带宽,相较Grace CPU和Blackwell GPU的互联带宽也呈现了一倍提升。进入2H27,有望推出Rubin Ultra系列产品,相较Rubin性能有望实现进一步跨越,主要包含了采用4x Chiplet设计(之前最多为2个)+16个HBM堆栈(之前最多为8个),实现了FP4稠密算力再翻倍的性能。从机柜产品设计来看,有望在2H27推出集成度高达576(对应144个封装单元)die的产品,即NVL 576。机架的部署模式有望演化为正交型,并可能采用PTFE背板代替现有连接方式。


► Feymann: 有望于2028年推出的产品,继续与Vera CPU搭配并迎来HBM升级。


图表4:NVIDIA 数据中心GPU产品对比(芯片及封装层级)







请到「今天看啥」查看全文