专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
冷笑话  ·  论高考期间家长对考生的宽容度~ ·  昨天  
英式没品笑话百科  ·  裙底的恶魔 英式没品笑话百科的微博视频 ... ·  昨天  
51好读  ›  专栏  ›  企业存储技术

AI集群Scale-Up互连:展望UALink与NVLink的竞争

企业存储技术  · 公众号  ·  · 2025-04-20 15:44

正文

请到「今天看啥」查看全文


以太网 Scale-out 互连)

- 所有 8 GPU 均可通过独立的 400Gb/s 专用 HCA/NIC 进行 RDMA 数据传输

- 与非 NVLink 网络设备间实现 800GB/s 聚合全双工带宽


由于 AMD UALink 的发起者并贡献了 Infinity Fabric Links (xGMI) 内存一致性互连协议,下面我就拿 AMD 当前的 GPU 做个简单对照:

上图引用自技术文档《 AMD Instinct™ MI300 Series Cluster Reference Architecture Guide 》,新推出的 MI325X 应该也是同样的互连架构—— 8 OAM 形态 GPU UBB 板上,形成点对点全网状互连的方式。这个总带宽也不错,没有 NVIDIA DGX 系统上那 4 NVSwitch 成本还能降低。不过一旦需要跨主机扩展 AI 集群, GPU 就要通过 PCIe Switch 连接的网卡( Backend NICs ),走 Scale-out 的方式来互连。

如果是推理应用还好,单机 8 GPU 的内存能容纳下绝大多数的 AI 大模型(包括 DeepSeek V3/R1 671B )。而一些较大参数量模型的训练应用,内存语义 Scale-Up 网络能够扩展的规模,在有些情况下还是有影响的。这也是 UALink 诞生的理由。

AI 芯片 UALink 带宽:达到 NVLink4 还是 5 水平?

下表中部分规格是我推测的,不一定准确。接下来我会列出相关素材和推断过程。


UALink 1.0

NVLink4

NVLink5

对应 xPU 芯片


H100 H200

Blackwell 系列

基础网络速率 ( Gbps )

100Gbps 200Gbps

100Gbps (50Gbaud-PAM4)

200Gbps

每端口 Lane

1 2 4

2

2

每端口带宽 ( 单向, GB/s )

最大 100GB/s ( 双向 200GB/s)

25GB/s ( 双向 50GB/s)

50GB/s ( 双向 100GB/s)

AI 芯片最大 Lane/ 端口数

32 lane -?

18 端口

18 端口

总带宽 ( 单向 )

640GB/s -?

450GB/s

900GB/s

1 NVIDIA 官方资料习惯写全双工网络的双向总带宽,而在上表中我统一按照单向带宽来比较

2 NVLink 每端口由 2 lane 组成; UALink 每端口支持 1 2 4 lane 。所以在对比时, NVLink 18 端口相当于 36 lane

下图引用自《 Ultra Accelerator Link Consortium Inc. (UALink) - UALink_200 Rev 1.0 Specification 》规范文档,由此基本可知,未来支持 UALink 的加速器( xPU )应该至少有能达到 32 lane 产品。

3 如果按照 200Gbps 32 lane 来计算,单芯片提供的 UALink 总带宽为 640GB/s (全双工)。







请到「今天看啥」查看全文