专栏名称: 鲜枣课堂
这里有最通俗易懂的通信知识!
目录
相关文章推荐
川大研究生  ·  川大研究生的一天 | 基础医学研究生的一天 ·  1小时前  
川大研究生  ·  川大研究生的一天 | 基础医学研究生的一天 ·  1小时前  
福建教育微言  ·  教育部批准! 黎明职业大学正式升格本科层次职业大学 ·  10 小时前  
福建教育微言  ·  教育部批准! 黎明职业大学正式升格本科层次职业大学 ·  10 小时前  
武汉大学  ·  华中首个!武大可报考新专业+1 ·  2 天前  
浙江大学  ·  他是浙大“方爸” ·  昨天  
四川大学e教务  ·  教授讲专业 | ... ·  3 天前  
四川大学e教务  ·  教授讲专业 | ... ·  3 天前  
51好读  ›  专栏  ›  鲜枣课堂

最近很火的“超节点”,到底是干啥的?

鲜枣课堂  · 公众号  ·  · 2025-04-28 11:25

正文

请到「今天看啥」查看全文


图片来自:英伟达官网


NVLINK原本只用于机器内部通信。2022年,英伟达将NVSwitch芯片独立出来,变成了NVLink交换机,用于连接服务器之间的GPU设备。这意味着,节点已经不再仅限于1台服务器了,而是可以由多台服务器和网络设备共同组成。


这些设备处于同一个HBD(High Bandwidth Domain,超带宽域)。 英伟达将这种以超大带宽互联16卡以上GPU-GPU的Scale Up系统,称为超节点。


历经多年的发展,NVLINK已经迭代到第五代。每块GPU拥有18个NVLink连接,Blackwell GPU的总带宽可达到1800GB/秒,远远超过PCIe Gen6的总线带宽。



2024年3月,英伟达发布了NVL72,可以将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,实现总计720 PFLOPs的AI训练性能,或1440 PFLOPs的推理性能。


英伟达GB200 NVL72机柜(来自英伟达GTC大会直播)



超节点,有哪些优点?


说到这里,大家可能会提出疑问——为什么一定要搞超节点呢?如果Scale Up这条路线不好走,我们就走Scale Out路线,增加节点数,不也能做出大规模GPU集群吗?


答案很简单。之所以要搞超节点这种加强版的Scale Up,是因为在性能、成本、组网、运维等方面,能带来巨大优势。


Scale Out,考验的是节点之间的通信能力。目前,主要采用的通信网络技术,是Infiniband(IB)和RoCEv2。


这两个技术都是基于RDMA(远程直接内存访问)协议,拥有比传统以太网更高的速率、更低的时延,负载均衡能力也更强。


IB是英伟达的私有技术,起步早,性能强,价格贵。RoCEv2是开放标准,是传统以太网融合RDMA的产物,价格便宜。两者之间的差距,在不断缩小。


在带宽方面,IB和RoCEv2仅能提供Tbps级别的带宽。而Scale Up,能够实现数百个GPU间10Tbps带宽级别的互联。


在时延方面,IB和RoCEv2的时延时延高达10微秒。而Scale Up对网络时延的要求极为严苛,需要达到百纳秒(100纳秒=0.1微秒)级别。


在AI训练过程中,包括多种并行计算方式,例如TP(张量并行)、 EP(专家并行)、PP(流水线并行)和DP(数据并行)。








请到「今天看啥」查看全文