专栏名称: 鲜枣课堂
这里有最通俗易懂的通信知识!
目录
相关文章推荐
AI科技评论  ·  机器人学会「眼看手摸」!FreeTacMan ... ·  2 天前  
51好读  ›  专栏  ›  鲜枣课堂

一文看懂英伟达的NVLink技术

鲜枣课堂  · 公众号  ·  · 2025-05-20 12:22

正文

请到「今天看啥」查看全文


NVLink链路和差分线

每对差分线(每个通道)的双向带宽是5GB/s。所以, 每条NVLink 1.0链路的 双向带宽是40GB/s。

因此,每块 P100 GPU的 总双向带宽可达160GB/s ,是PCIe3 x16(总带宽大约32GB/s)的五倍。

NVLink还支持内存一致性和直接内存访问(DMA),进一步提高了数据传输效率和计算性能。

迄今为止,英伟达陆续推出了 NVLink 1.0~5.0,参数我就不一一介绍了,可以看下面的表格:



NVLink1-4代际(图片来自英伟达官网)

再来看看拓扑结构。

最简单的两张卡直接互连,就是 杠铃拓扑(barbell topology)。 双PCIe GPU之间,可以通过NVLink Bridge设备实现。

杠铃拓扑

NVLink Bridge

四张GPU卡的话,可以使用十字交叉方形拓扑(crisscrossed square topology)。这是一种 Full Mesh的网状交叉互联结构。

十字交叉方形拓扑

8张GPU卡,就稍微有点复杂了。

在HGX-1系统中实现了一种 “hybrid cube mesh” 8 GPU互联结构。 如下图所示:


每一块GPU都巧妙利用了其6条NVLink,与其他4块GPU相连。8块GPU以有限的NVLink数量,实现了整体系统的最佳性能。

这个图看上去有点奇怪。实际上,如果把它以立体的方式呈现,就很清晰了:


就是串联的架构。

当时英伟达发布的超级计算机DGX-1,就是采用了上面这个架构。

2016年,英伟达CEO黄仁勋给刚刚成立的OpenAI公司赠送了 世界上第一台DGX-1超级计算机,价值129000美元。


这台DGX-1拥有2颗Xeon处理器和8颗Tesla P100 GPU,整机拥有170TFLOPs的半精度(FP16)峰值性能,还配备了512GB系统内存和128GB GPU内存。

这台机器给OpenAI的早期起步提供了极大帮助,大幅缩短了他们的大模型训练周期。

Hybrid Cube Mesh架构实现了单机内的8卡互连,但也存在一些不足:它属于一种串行连接,8块GPU之间并非两两互联,每一块GPU只与其他4块GPU相连,且存在带宽不对等的情况。

于是,2018年,为了实现8颗GPU之间的all-to-all互连,英伟达发布了NVSwitch 1.0。


NVSwitch ,说白了就是“交换芯片”。它拥有18个端口,每个端口的带宽是50GB/s,双向总带宽900GB/s。用6个NVSWitch,可以实现8颗V100的all-to-all连接。

引入NVSwitch的DGX-2,相比此前的DGX-1,提升了2.4倍的性能。

到NVLink 4.0的时候,DGX的内部拓扑结构增加了NVSwitch对所有GPU的全向直连,DGX内部的互联结构得到简化。


2022年,英伟达将原本位于计算机内部的NVSwitch芯片独立出来,变成了NVLink交换机。这意味着,一个计算节点已经不再仅限于1台服务器,而是可以由多台服务器和网络设备共同组成。

目前, NVLink Switch已经发展到4.0版本。







请到「今天看啥」查看全文