专栏名称: 中科院物理所
物理所科研动态和综合新闻;物理学前沿和科学传播。
目录
相关文章推荐
中科院物理所  ·  挠痒痒为什么停不下来? | No.463 ·  昨天  
环球物理  ·  【物理公式】2025年中考物理公式汇总 ·  2 天前  
51好读  ›  专栏  ›  中科院物理所

最近很火的“超节点”,到底是干啥的?

中科院物理所  · 公众号  · 物理  · 2025-05-01 11:42

正文

请到「今天看啥」查看全文


2024年3月,英伟达发布了NVL72,可以将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,实现总计720 PFLOPs的AI训练性能,或1440 PFLOPs的推理性能。

英伟达GB200 NVL72机柜(来自英伟达GTC大会直播)
超节点,有哪些优点?
说到这里,大家可能会提出疑问——为什么一定要搞超节点呢?如果Scale Up这条路线不好走,我们就走Scale Out路线,增加节点数,不也能做出大规模GPU集群吗?
答案很简单。之所以要搞超节点这种加强版的Scale Up,是因为在性能、成本、组网、运维等方面,能带来巨大优势。
Scale Out,考验的是节点之间的通信能力。目前,主要采用的通信网络技术,是Infiniband(IB)和RoCEv2。
这两个技术都是基于RDMA(远程直接内存访问)协议,拥有比传统以太网更高的速率、更低的时延,负载均衡能力也更强。
IB是英伟达的私有技术,起步早,性能强,价格贵。RoCEv2是开放标准,是传统以太网融合RDMA的产物,价格便宜。两者之间的差距,在不断缩小。
在带宽方面,IB和RoCEv2仅能提供Tbps级别的带宽。而Scale Up,能够实现数百个GPU间10Tbps带宽级别的互联。
在时延方面,IB和RoCEv2的时延时延高达10微秒。而Scale Up对网络时延的要求极为严苛,需要达到百纳秒(100纳秒=0.1微秒)级别。
在AI训练过程中,包括多种并行计算方式,例如TP(张量并行)、 EP(专家并行)、PP(流水线并行)和DP(数据并行)。
通常来说,PP和DP的通信量较小,一般交给Scale Out搞定。而TP和EP的通信量大,需要交给Scale Up(超节点内部)搞定。
超节点,作为Scale Up的当前最优解,通过内部高速总线互连,能够有效支撑并行计算任务,加速GPU之间的参数交换和数据同步,缩短大模型的训练周期。
超节点一般也都会支持内存语义能力,GPU之间可以直接读取对方的内存,这也是Scale Out不具备的。
站在组网和运维的角度来看,超节点也有明显优势。
超节点的HBD(超带宽域)越大,Scale Up的GPU越多,Scale Out的组网就越简单,大幅降低组网复杂度。

Scale Up & Scale Out组网示意图
超节点是一个高度集成的小型集群,内部总线已经连好。这也降低了网络部署的难度,缩短了部署周期。后期的运维,也会方便很多。
当然,超节点也不能无限大,也要考虑本身的成本因素。具体的规模,需要根据需求场景进行测算。
概括来说, 超节点的优势,就是增加局部的带宽,减少增加全局带宽的成本,以此获得更大的收益。
超节点,有哪些可选的方案?
正因为超节点拥有显著的优势,所以,在英伟达提出这一概念后,立刻受到了业界的关注。也有很多厂商,加入到超节点的研究之中。






请到「今天看啥」查看全文