专栏名称: 企业存储技术

企业存储、服务器、SSD、灾备等领域技术分享，交流 | @唐僧_huangliang （新浪微博）

AI集群Scale-Up互连：展望UALink与NVLink的竞争

企业存储技术 · 公众号 · · 2025-04-20 15:44

正文

请到「今天看啥」查看全文

以太网（ Scale-out 互连）

- 所有 8 个 GPU 均可通过独立的 400Gb/s 专用 HCA/NIC 进行 RDMA 数据传输

- 与非 NVLink 网络设备间实现 800GB/s 聚合全双工带宽

由于 AMD 是 UALink 的发起者并贡献了 Infinity Fabric Links (xGMI) 内存一致性互连协议，下面我就拿 AMD 当前的 GPU 做个简单对照：

上图引用自技术文档《 AMD Instinct™ MI300 Series Cluster Reference Architecture Guide 》，新推出的 MI325X 应该也是同样的互连架构—— 8 颗 OAM 形态 GPU 在 UBB 板上，形成点对点全网状互连的方式。这个总带宽也不错，没有 NVIDIA DGX 系统上那 4 颗 NVSwitch 成本还能降低。不过一旦需要跨主机扩展 AI 集群， GPU 就要通过 PCIe Switch 连接的网卡（ Backend NICs ），走 Scale-out 的方式来互连。

如果是推理应用还好，单机 8 块 GPU 的内存能容纳下绝大多数的 AI 大模型（包括 DeepSeek V3/R1 671B ）。而一些较大参数量模型的训练应用，内存语义 Scale-Up 网络能够扩展的规模，在有些情况下还是有影响的。这也是 UALink 诞生的理由。

AI 芯片 UALink 带宽：达到 NVLink4 还是 5 水平？

下表中部分规格是我推测的，不一定准确。接下来我会列出相关素材和推断过程。

UALink 1.0

NVLink4

NVLink5

对应 xPU 芯片

H100 、 H200

Blackwell 系列

基础网络速率 ( Gbps )

100Gbps 或 200Gbps

100Gbps (50Gbaud-PAM4)

200Gbps

每端口 Lane 数

1 、 2 、 4

每端口带宽 ( 单向， GB/s )

最大 100GB/s ( 双向 200GB/s)

25GB/s ( 双向 50GB/s)

50GB/s ( 双向 100GB/s)

AI 芯片最大 Lane/ 端口数

32 lane -?

18 端口

总带宽 ( 单向 )

640GB/s -?

450GB/s

900GB/s

注 1 ： NVIDIA 官方资料习惯写全双工网络的双向总带宽，而在上表中我统一按照单向带宽来比较。

注 2 ： NVLink 每端口由 2 个 lane 组成； UALink 每端口支持 1 、 2 或 4 个 lane 。所以在对比时， NVLink 的 18 端口相当于 36 个 lane 。

下图引用自《 Ultra Accelerator Link Consortium Inc. (UALink) - UALink_200 Rev 1.0 Specification 》规范文档，由此基本可知，未来支持 UALink 的加速器（ xPU ）应该至少有能达到 32 lane 产品。

注 3 ： 如果按照 200Gbps 和 32 lane 来计算，单芯片提供的 UALink 总带宽为 640GB/s （全双工）。

请到「今天看啥」查看全文

推荐文章

前端早读课 · 【图书】Cursor与Copilot开发实战：让烦琐编程智能化

昨天

常青藤爸爸 · 初三普娃妈妈的肺腑之言：这三年的关键词就是“失控”

昨天

新东方家庭教育 · 损害孩子大脑的4种坏习惯：父母再难，也要帮孩子戒掉（建议收藏）

2 天前

简约小生活 · 洗衣服时往里倒一碗，不管衣服多脏多黄，轻轻一搓立马有效

2 天前

简约小生活 · 洗衣服时往里倒一碗，不管衣服多脏多黄，轻轻一搓立马有效

2 天前

闵行教育 · 如何科学育儿？免费的家庭教育指导活动（第2场），等你来参加！

2 天前

蓝点网 · Visio现已支持将Excel数据表映射为流程图文档

8 年前

飞碟说 · 为什么日本人自杀非要切腹？

8 年前

虎嗅APP · 虎利社丨跟你港，炫fu这事儿真不能低调......

7 年前

瞭望消金 · 500万投资一年后仅剩57万，“保底合同”被判无效！

7 年前

守山交易室 · 6.22图图盘后作业

7 年前