专栏名称: EETOP

EETOP电子网(中国电子顶级开发网）是国内最顶级的电子行业工程师社区，涉及：嵌入式、智能硬件、半导体集成电路设计及制造等。为您分享论坛精华内容、行业最新资讯、产品及技术。网址：www.eetop.cn bbs.eetop.cn

重磅！英伟达开放 NVLink

EETOP · 公众号 · 硬件 · 2025-05-23 11:30

主要观点总结

本文介绍了Nvidia成为AI革命硬件巨头的原因，其中包括其NVLink内存共享端口的技术细节和发展历程。文章还讨论了NVLink Fusion的相关知识，包括其应用场景和技术合作伙伴。最后，文章提到了Nvidia与不同公司的合作以及未来可能的发展趋势。

关键观点总结

关键观点1: Nvidia成为AI革命硬件巨头的原因之一是NVLink内存共享端口

NVLink端口早在2016年就开始在Pascal P100 GPU加速器上推出，如今已成为Nvidia的一项核心技术。NVLink提供了高带宽、低延迟的内存访问，使得GPU能够更高效地与CPU和其他设备进行通信。

关键观点2: NVLink Fusion是Nvidia开放NVLink协议和物理传输（PHY）的结果

NVLink Fusion允许定制CPU或加速器的公司获得NVLink端口设计及其上的内存原子协议许可，从而实现类似于CPU几十年来所具备的NUMA内存共享模式。这是Nvidia开放技术的一个重要举措，有助于促进行业内的合作和创新。

关键观点3: NVLink技术具有多种应用场景

NVLink技术可以用于连接CPU和GPU，也可以用于连接自定义CPU和加速器，或者像超级芯片一样直接连接。此外，NVLink还可以通过聚合多个链路来提供极高的带宽，以满足大规模并行计算的需求。

关键观点4: Nvidia的技术合作伙伴包括Cadence Design Systems、Synopsis、Alchip、Astera Labs、Marvell、MediaTek等

这些公司都与Nvidia合作将NVLink端口设计集成到他们的CPU或加速器中，共同推动AI领域的技术进步。

关键观点5: 未来Nvidia可能继续开放更多技术并与更多公司合作

随着AI领域的不断发展，Nvidia可能会继续开放更多技术，并与更多公司进行合作，以推动AI基础设施的进步和降低价格。同时，Nvidia也将面临来自其他公司的竞争和挑战，需要不断创新以保持领先地位。

正文

请到「今天看啥」查看全文

当然，有一家 CPU 制造商已经与 Nvidia 达成了这样的许可协议，那就是 IBM ，它与 Nvidia 合作，使用 NVLink 9 端口创建将其 Power9 处理器和 Nvidia 的“Volta”V100 GPU 加速器相结合的百亿亿次级系统 。在这种情况下，没有什么神奇的事情发生。 IBM 创建了自己的“BlueLink”OpenCAPI PHY 和在其上运行的 NUMA 协议，以在共享内存 NUMA 设置中将 Power9 处理器彼此链接起来。将 NVLink 协议添加到 BlueLink，这并不是什么大 D。因此，IBM 是橡树岭国家实验室的 “Summit”超级计算机 和劳伦斯利弗莫尔国家实验室的 “Sierra”超级计算机 的主要承包商，而 Nvidia 提供了大部分失败。

但是， IBM 和 Nvidia 并未就如何在这两个美国能源部实验室的百万兆次级系统上合作达成协议，并且 Big Blue 不支持 Power10 芯片上的 NVLink 3.0 端口，即使我们确定这在技术上是可行的。（而且，在经济上可能更可取。因此，AMD 横扫并赢得了这些交易，并有机会振兴其数据中心 GPU 业务。

当然， Nvidia 的“Grace”CG100 Arm 服务器处理器上有 NVLink 链接，这些链接经过聚合，在 CPU 和“Hopper”H100 和 H200 GPU 加速器或“Blackwell”B100、B200 和 B300 GPU 加速器之间为每个端口带来 600 GB/秒的聚合带宽。

NVLink 每个链路的通道数量可变，每个链路有两个通道用于双向流量，以及多个链路以创建物理端口运行，并且通道根据信号上 PAM-4 调制的生成和使用运行各种速度。喜欢这个：

NVLink 1.0 的通道以 20 Gb/秒的速度运行，每个链路有 8 个通道，每个链路的双向带宽为 40 GB/秒。每个 Pascal P100 加速器有四个链路，Nvidia 在 GPU 之间和具有实验性 NVLink 1.0 端口的 Power8 CPU 之间提供了 160 GB/秒的带宽。
使用 NVlink 2.0，通道以 25 Gb/秒的速度运行（与 IBM 的 BlueLink 相同），每个链路再次有 8 个通道，每个链路产生 50 GB/秒的双向带宽。V100 GPU 总共有 6 个链路，在设备之间提供 300 GB/秒的带宽。
在 NVLink 3.0 中，NVlink SerDes 中添加了 PAM-4 调制，使通道带宽增加了一倍，但每个链路的通道数量减半到四个，从而将每个链路的双向带宽保持在 50 GB/秒。“Ampere” A100 GPU 有十几个 NVLink 3.0 端口，带宽为 600 GB/秒。（这也是 Grace CPU 所具有的。
使用 NVLink 4 时，信号传输速率提高到 100 Gb/秒（添加了 PAM-4 编码的本机 50 Gb/秒），并且每个链路有两个通道，每个链路具有相同的 50 GB/秒双向信号传输速率。Hopper 和 Blackwell 芯片每个芯片都有 18 个链路，或者在 Blackwell 的情况下，每个芯片有 18 个链路，从而产生每个 Hopper 或 Blackwell GPU 小芯片 900 GB/s 的双向带宽。（Blackwell 套接字有两个小芯片，并获得 1.8 TB/秒的 NVLink 4.0 带宽。
正如我们在