一文看懂英伟达的NVLink技术

鲜枣课堂 · 公众号 · · 2025-05-20 12:22

正文

NVLink链路和差分线

每对差分线（每个通道）的双向带宽是5GB/s。所以，每条NVLink 1.0链路的双向带宽是40GB/s。

因此，每块 P100 GPU的总双向带宽可达160GB/s ，是PCIe3 x16（总带宽大约32GB/s）的五倍。

NVLink还支持内存一致性和直接内存访问（DMA），进一步提高了数据传输效率和计算性能。

迄今为止，英伟达陆续推出了 NVLink 1.0~5.0，参数我就不一一介绍了，可以看下面的表格：

NVLink1-4代际（图片来自英伟达官网）

再来看看拓扑结构。

最简单的两张卡直接互连，就是杠铃拓扑（barbell topology）。双PCIe GPU之间，可以通过NVLink Bridge设备实现。

杠铃拓扑

NVLink Bridge

四张GPU卡的话，可以使用十字交叉方形拓扑（crisscrossed square topology）。这是一种 Full Mesh的网状交叉互联结构。

十字交叉方形拓扑

8张GPU卡，就稍微有点复杂了。

在HGX-1系统中实现了一种 “hybrid cube mesh” 8 GPU互联结构。如下图所示：

每一块GPU都巧妙利用了其6条NVLink，与其他4块GPU相连。8块GPU以有限的NVLink数量，实现了整体系统的最佳性能。

这个图看上去有点奇怪。实际上，如果把它以立体的方式呈现，就很清晰了：

就是串联的架构。

当时英伟达发布的超级计算机DGX-1，就是采用了上面这个架构。

2016年，英伟达CEO黄仁勋给刚刚成立的OpenAI公司赠送了世界上第一台DGX-1超级计算机，价值129000美元。

这台DGX-1拥有2颗Xeon处理器和8颗Tesla P100 GPU，整机拥有170TFLOPs的半精度（FP16）峰值性能，还配备了512GB系统内存和128GB GPU内存。

这台机器给OpenAI的早期起步提供了极大帮助，大幅缩短了他们的大模型训练周期。

Hybrid Cube Mesh架构实现了单机内的8卡互连，但也存在一些不足：它属于一种串行连接，8块GPU之间并非两两互联，每一块GPU只与其他4块GPU相连，且存在带宽不对等的情况。

于是，2018年，为了实现8颗GPU之间的all-to-all互连，英伟达发布了NVSwitch 1.0。

NVSwitch ，说白了就是“交换芯片”。它拥有18个端口，每个端口的带宽是50GB/s，双向总带宽900GB/s。用6个NVSWitch，可以实现8颗V100的all-to-all连接。

引入NVSwitch的DGX-2，相比此前的DGX-1，提升了2.4倍的性能。

到NVLink 4.0的时候，DGX的内部拓扑结构增加了NVSwitch对所有GPU的全向直连，DGX内部的互联结构得到简化。

2022年，英伟达将原本位于计算机内部的NVSwitch芯片独立出来，变成了NVLink交换机。这意味着，一个计算节点已经不再仅限于1台服务器，而是可以由多台服务器和网络设备共同组成。

目前， NVLink Switch已经发展到4.0版本。