正文
• TensorRT Model Optimizer
• 主流AI框架(PyTorch、JAX、TensorFlow等)
此外,英伟达还分享了最新的性能与精度数据,这些数据是在搭载8颗Blackwell GPU并使用两个NVLink Switch芯片互联的NVIDIA DGX B200系统上实测获得的。
TensorRT生态系统:专为NVIDIA Blackwell优化的全家桶
NVIDIA TensorRT生态系统旨在帮助开发者充分优化在NVIDIA GPU上的生产环境推理部署。
该生态包含一系列库工具,支持AI模型从预处理、加速优化,到最终的生产环境部署,全流程均已针对最新的NVIDIA Blackwell架构实现深度优化。
与上一代Hopper架构相比,Blackwell架构在推理性能上持续展现出巨大的提升。
模型优化的第一步:TensorRT Model Optimizer
TensorRT Model Optimizer是实现推理速度优化的重要第一步。它提供了一系列先进的模型优化技术,包括:
• 推测解码(Speculation Decoding)
最新发布的TensorRT Model Optimizer 0.25版本现已支持Blackwell架构上的FP4精度,适用于训练后量化(PTQ)与量化感知训练(QAT),进一步提升了推理计算吞吐量,并降低了下游推理框架的内存消耗。
模型优化完成后,高性能推理框架对于高效运行至关重要。TensorRT-LLM为开发者提供了丰富的工具箱,支持实现实时、高性价比、高能效的大模型(LLM)推理。
最新发布的TensorRT-LLM 0.17版本新增了对Blackwell架构的支持,并针对Blackwell的指令集、内存层次结构及FP4精度做了定制化优化。
基于PyTorch架构的TensorRT-LLM,通过为常见大模型推理操作提供高性能且灵活的内核(Kernels),以及先进的运行时特性。
包括动态批处理(in-flight batching)、KV缓存管理和推测式解码(speculative decoding),实现了卓越的性能表现。
目前,广泛使用的深度学习框架如PyTorch、JAX和TensorFlow均已升级,全面支持Blackwell架构下的训练与推理。
此外,社区热门的LLM服务框架如vLLM与Ollama也已适配Blackwell GPU,其他框架的支持也将在近期陆续跟进。
Blackwell配合TensorRT的软件堆栈带来显著推理性能提升
得益于Blackwell架构与TensorRT软件的协同优化,相较上一代Hopper架构,推理性能获得大幅提升。
这种性能增长的核心来自显著提高的计算能力、更大的内存带宽,以及高度优化的软件栈,共同确保了卓越的实际运行性能。
以社区广泛使用的大模型为例,包括DeepSeek-R1、Llama 3.1(405B参数)和Llama 3.3(70B参数),DGX B200平台在使用TensorRT推理软件与FP4精度的情况下,推理吞吐量已超过DGX H200平台的3倍以上,性能优势极为突出。