专栏名称: 智东西

智东西－聚焦智能变革，服务产业升级！作为智能行业新锐媒体，智东西专注五大领域：VR/AR；AI/机器人/无人机；智能汽车/智能出行；智能家居/物联网；智能穿戴/智能医疗，通过内容、活动、报告以及社群等方式助力“智能＋”时代的创业和产业升级。

900倍性能飙涨！英伟达放出算力猛兽，黄仁勋GTC现场开炮，拿下DeepSeek推理世界纪录

智东西 · 公众号 · 科技媒体 · 2025-03-19 08:43

正文

请到「今天看啥」查看全文

新旗舰Blackwell Ultra：全球首个288GB HBM3e GPU，NVL72机架下半年问世

在万众期待中，英伟达新一代数据中心旗舰GPU Blackwell Ultra（GB300） 正式登场。

Blackwell Ultra为AI推理时代而设计，是 全球首个288GB HBM3e GPU ，像拼乐高一样通过先进封装技术将2块掩膜尺寸的GPU拼装在一起，可实现多达 1.5倍 的FP4推理性能，最高15PFLOPS。

该GPU增强了训练和测试时推理扩展，可轻松有效地进行预训练、后训练以及深度思考（推理）模型的AI推理，构建于Blackwell架构基础之上，包括 GB300 NVL72 机架级解决方案和 HGX B300 NVL16 系统。

下一代模型可能包含数万亿参数，可以使用张量并行基于工作负载进行任务分配。如取模型切片在多个GPU上运行、将Pipeline放在多个GPU上、将不同专家模型放在不同GPU上，这就是MoE模型。

流水线并行、张量并行、专家并行的结合，可以取决于模型、工作量和环境，然后改变计算机配置的方式，以便获得最大吞吐量，同时对低延迟、吞吐量进行优化。

黄仁勋称，NVL72的优势就在于每个GPU都可以完成上述任务，NVLink可将所有GPU变成单个大型GPU。

GB300 NVL72 连接了72块Blackwell Ultra GPU和36块Grace CPU，采用机架式设计，密集FP4推理算力达到1.1EFLOPS，FP8训练算力达到0.36EFLOPS，是GB200 NVL72的1.5倍；总计有2倍的注意力指令集、20TB HBM内存、40TB快内存、14.4TB/s CX8。

升级的GB300 NVL72设计，提高了能效和可服务性，通过降低成本和能耗来推进AI推理民主化，相比Hopper将AI工厂的收入机会提高50倍。

GB300 NVL72预计将在英伟达端到端全托管AI平台DGX Cloud上提供。

与Hopper相比， HGX B300 NVL16 在大语言模型上的推理速度加快至11倍，计算能力增加到7倍，内存增至4倍。

Blackwell Ultra系统与Spectrum-X以太网、Quantum-X800 InfiniBand平台无缝集成，通过ConnectX-8 SuperNIC，每个GPU有800Gb/s的数据吞吐量，提供了一流的远程直接内存访问功能，使AI工厂和云数据中心可在没有瓶颈的情况下处理AI推理模型。

英伟达合作伙伴预计将从 2025年下半年 起提供基于Blackwell Ultra的产品。

亚马逊云科技、谷歌云、微软Azure、甲骨文OCI、CoreWeave、Crusoe、Lambda、Nebius、Nscale、Yotta、YTL等云服务提供商将首批提供Blackwell Ultra驱动的实例。

03 .

数据中心AI超算：全新DGX SuperPOD，将AI工厂性能提升至70倍

英伟达 DGX SuperPOD 与 DGX GB300 系统采用GB300 NVL72机架设计，提供交钥匙AI工厂。

英伟达将NVIDIA DGX SuperPOD称作“全球最先进的企业级AI基础设施”，旨在为实时推理和训练提供强大的计算能力。

企业可采用全新DGX GB300和DGX B300系统，集成英伟达网络，获得开箱即用的DGX SuperPOD AI超级计算机。

DGX SuperPOD提供FP4精度和更快的AI推理速度，可扩展到数万块Grace Blackwell Ultra超级芯片，预计将在今年晚些时候从合作伙伴处可获得。

DGX GB300 系统采用英伟达Grace Blackwell Ultra超级芯片（包含36块Grace CPU和72块Blackwell GPU），以及一个为先进推理模型上的实时智能体响应而设计的机架级液冷架构。

与采用Hopper系统和38TB快内存构建的AI工厂相比，DGX GB300系统可提供 70倍 的AI性能。

每个DGX GB300系统配备72个ConnectX-8 SuperNIC，加速网络速度高达800Gb/s，是上一代性能的 2倍。

18个BlueField-3 DPU搭配Quantum-X800 InfiniBand或Spectrum-X以太网，可加速大规模AI数据中心的性能、能效和安全。

与上一代Hopper相比， DGX B300 系统可提供 11倍 的AI推理性能和 4倍的AI训练加速。

每个系统提供2.3TB HBM3e内存，包含由8个英伟达ConnectX-8 SuperNIC和2个BlueField-3 DPU组成的先进网络。

英伟达还推出了一项以DGX SuperPOD为特色的托管服务 NVIDIA Instant AI Factory ，计划在今年晚些时候开始上市，并发布适用于Blackwell架构DGX系统的AI数据中心运营和编排软件 NVIDIA Mission Control 。

Equinix将率先在其位于全球45个市场的预配置液冷或风冷AI-ready数据中心提供新DGX GB300和DGX B300系统。

04 .

发布AI推理软件、新推理模型，

DeepSeek-R1猛刷存在感

企业正竞相建设可扩展的AI工厂，以满足AI推理和推理时扩展的处理需求。英伟达推出开源的AI推理软件 NVIDIA Dynamo ，其本质上就是AI工厂的操作系统。

Dynamo（发电机）的命名来源是，发电机是开启上一次工业革命的第一台工具，Dynamo也是现在一切开始的地方。

NVIDIA Dynamo是一个用于大规模服务推理模型的AI推理软件，旨在为部署推理模型的AI工厂实现token收入最大化。

它能够跨数千个GPU编排和加速推理通信，并使用分区分服务来分离不同GPU上大语言模型的处理和生成阶段，使每个阶段可根据特定需求独立优化，并确保GPU资源的最大利用率。

为了提高推理性能，英伟达采用Blackwell NVL8设计，之后又引入新的精度，用更少的资源量化模型。

未来每个数据中心都会受到电力限制，数据中心的收入与之挂钩，因此英伟达用NVL72进行扩展，打造更节能的数据中心。

在GPU数量相同的情况下，Dynamo可将Hopper平台上运行Llama模型的AI工厂性能和收益翻倍。在由GB200 NVL72机架组成的大型集群上运行DeepSeek-R1模型时，Dynamo的智能推理优化也可将每个GPU生成的token数量提高 30倍 以上。

基于Dynamo，相比Hopper，Blackwell性能提升25倍，可以基于均匀可互换的可编程架构。在推理模型中，Blackwell性能是Hopper的 40倍 。

黄仁勋说：“这就是我以前为什么说，当Blackwell批量发货时，你不要把Hopper送人。”他调侃自己是“首席收入官”。

“买得越多，省得越多，赚得越多。”黄仁勋的经典带货名言又来了，这次他特别强调AI工厂收入的提高，100MW AI工厂会包含45000个GPU Die、1400个机架、每秒生成3亿个token。

相比Hopper，Blackwell能实现 40倍 的性能提升，对应产生 40倍 的token收入。

为了提升推理性能，NVIDIA Dynamo加入了一些功能，使其能够提高吞吐量的同时降低成本。

它可以根据不断变化的请求数量和类型，动态添加、移除、重新分配GPU，并精确定位大型集群中的特定 GPU，从而更大限度地减少响应计算和路由查询。

它还可以将推理数据卸载到成本更低的显存和存储设备上，并在需要时快速检索这些数据，最大程度地降低推理成本。

Dynamo可将推理系统在处理过往请求时于显存中保存的知识（称为KV缓存），映射到潜在的数千个GPU中。然后，它会将新的推理请求路由到与所需信息匹配度最高的 GPU 上，从而避免昂贵的重新计算，并释放GPU来响应新的请求。

该软件完全开源并支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM，使企业、初创公司和研究人员能够开发和优化在分离推理时部署AI模型的方法。

大模型公司Cohere计划使用NVIDIA Dynamo为其Command系列模型中的AI智能体功能提供支持。

英伟达还基于Llama开发了全新 Llama Nemotron推理模型系列 ，提供Nano、Super、Ultra版本。其中Super 49B版本在生成速度和AI智能体任务的准确性两个维度超过DeepSeek-R1，吞吐量达到Llama 3.3 70B、DeepSeek R1 Llama 70B的 5倍。

这些模型现已开源，企业可以通过NIM下载至本地运行。