正文
10 Cortex-X925 + 10 Cortex-A725 Arm
16核Zen5
GPU
Blackwell架构(算力接近5070?)
AMD Radeon™ 8060S(性能大约相当于RTX 4060独显)
TDP
170(整机功耗)
45-120W cTDP
AI性能
1000 TOPS(FP4稀疏精度)
126 TOPS(含NPU 50 TOPS,INT8标准精度)
统一内存
128 GB LPDDR5x,256-bit
最大128GB LPDDR5x-8000,256-bit
(显存最大分配96GB)
内存带宽
273GB/s
256GB/s
NVMe SSD
1 or 4 TB NVMe.M2
单盘、RAID 0/1
网卡
1x RJ-45 10 Gb、ConnectX-7 Smart NIC
以太网
支持的操作系统
NVIDIA DGX™ OS(基于Ubuntu Linux)
Windows 11 - 64-Bit Edition , RHEL x86 64-Bit , Ubuntu x86 64-Bit
用途
AI计算(面向AI 研究人员、数据科学家和学生)
AI计算、桌面办公、3D图形设计、游戏等
NVIDIA DGX Spark号称“最小的 AI 超级计算机”,它的处理器有点像微缩版的DGX计算系统(参考下图),在GB10单芯片上集成了Grace CPU——20个Arm Core,以及Blackwell架构的GPU。
AMD Ryzen AI MAX PRO系列(代号Stirx Halo),更接近传统集成显卡的x86 CPU,但整合GPU的性能却比较强。其默认TDP功耗55W,根据不同系统设计,cTDP可调功耗在45-120W范围。
关于AI计算性能,尽管从标称数值上看左右两边差距有点大,但正如NV官网
https://www.nvidia.com/en-us/products/workstations/dgx-spark/
上的注释,这个1000(不知道是不是加上了CPU部分?)是
FP4
TOPS using the sparsity feature(
稀疏精度
),如果是按生成式AI常用的标准(稠密)精度,理论性能是上述的一半——500 FP4 TOPS,而
FP8/INT8标准精度
算力则应该是
250 TOPS
。
另一方面,无论使用CPU还是GPU做AI计算,在LLM推理的
Prefill(内容输入理解)阶段的瓶颈是算力
;而在
Decode输出
时的性能
(Token/s)则主要受制于内存带宽
。我们看到上面2款产品都使用了