正文
以太网
(
Scale-out
互连)
-
所有
8
个
GPU
均可通过独立的
400Gb/s
专用
HCA/NIC
进行
RDMA
数据传输
-
与非
NVLink
网络设备间实现
800GB/s
聚合全双工带宽
由于
AMD
是
UALink
的发起者并贡献了
Infinity Fabric Links
(xGMI)
内存一致性互连协议,下面我就拿
AMD
当前的
GPU
做个简单对照:
上图引用自技术文档《
AMD Instinct™ MI300 Series Cluster Reference Architecture Guide
》,新推出的
MI325X
应该也是同样的互连架构——
8
颗
OAM
形态
GPU
在
UBB
板上,形成点对点全网状互连的方式。这个总带宽也不错,没有
NVIDIA DGX
系统上那
4
颗
NVSwitch
成本还能降低。不过一旦需要跨主机扩展
AI
集群,
GPU
就要通过
PCIe Switch
连接的网卡(
Backend NICs
),走
Scale-out
的方式来互连。
如果是推理应用还好,单机
8
块
GPU
的内存能容纳下绝大多数的
AI
大模型(包括
DeepSeek V3/R1 671B
)。而一些较大参数量模型的训练应用,内存语义
Scale-Up
网络能够扩展的规模,在有些情况下还是有影响的。这也是
UALink
诞生的理由。
AI
芯片
UALink
带宽:达到
NVLink4
还是
5
水平?
下表中部分规格是我推测的,不一定准确。接下来我会列出相关素材和推断过程。
|
UALink 1.0
|
NVLink4
|
NVLink5
|
对应
xPU
芯片
|
|
H100
、
H200
|
Blackwell
系列
|
基础网络速率
(
Gbps
)
|
100Gbps
或
200Gbps
|
100Gbps (50Gbaud-PAM4)
|
200Gbps
|
每端口
Lane
数
|
1
、
2
、
4
|
2
|
2
|
每端口带宽
(
单向,
GB/s
)
|
最大
100GB/s (
双向
200GB/s)
|
25GB/s (
双向
50GB/s)
|
50GB/s (
双向
100GB/s)
|
AI
芯片最大
Lane/
端口数
|
32 lane -?
|
18
端口
|
18
端口
|
总带宽
(
单向
)
|
640GB/s -?
|
450GB/s
|
900GB/s
|
注
1
:
NVIDIA
官方资料习惯写全双工网络的双向总带宽,而在上表中我统一按照单向带宽来比较
。
注
2
:
NVLink
每端口由
2
个
lane
组成;
UALink
每端口支持
1
、
2
或
4
个
lane
。所以在对比时,
NVLink
的
18
端口相当于
36
个
lane
。
下图引用自《
Ultra Accelerator Link Consortium Inc. (UALink) - UALink_200 Rev 1.0 Specification
》规范文档,由此基本可知,未来支持
UALink
的加速器(
xPU
)应该至少有能达到
32 lane
产品。
注
3
:
如果按照
200Gbps
和
32 lane
来计算,单芯片提供的
UALink
总带宽为
640GB/s
(全双工)。