正文
Ironwood 的构建旨在支持生成式 AI 的下一个发展阶段及其庞大的计算和通信需求。Ironwood 可以扩展到高达 9,216 颗液冷芯片(liquid cooled chips),这些芯片通过突破性的芯片间互连 (Inter-Chip Interconnect, ICI) 网络相连。它是 Google Cloud AI Hypercomputer 架构的多项新组件之一,该架构旨在整合优化硬件与软件层面,以应对最严苛的 AI 工作负载。通过 Ironwood,开发者还能利用 Google 自家的 Pathways 软件堆栈,可靠且轻松地利用数万个 Ironwood TPU 的组合计算能力。
以下我们将深入探讨这些创新如何协同运作,以无与伦比的性能、成本和能效来处理最严苛的训练与执行工作负载。
Ironwood 的设计旨在从容应对「思考模型」的复杂计算和通信需求,这类模型涵盖了大语言模型 (LLMs)、专家混和模型 (Mixture of Experts, MoEs) 和进阶推理任务。这些模型需要大规模并行处理能力和高效的内存访问。
特别的是,Ironwood 的设计着重于在执行大量的张量运算的同时,最大限度地降低芯片上的数据移动和延迟。在前沿应用方面,思考模型的计算需求远远超出任何单一芯片的处理容量。我们为 Ironwood TPU 设计了低延迟、高带宽的 ICI 网络,以支持在整个 TPU Pod 规模下进行协调且同步的通信。
针对 Google Cloud 客户,Ironwood 根据 AI 工作负载的需求提供两种规模配置:256 颗芯片配置和 9,216 颗芯片配置。
当扩展到每个 Pod 达 9,216 颗芯片时,总运算能力可达 42.5 百亿亿次浮点运算每秒(42.5 Exaflops),是世界上最大的超级计算机 El Capitan 的
24 倍
以上,后者每个 Pod 仅提供 1.7 百亿亿次浮点运算每秒 (1.7 Exaflops)。Ironwood 提供的大规模并行处理能力,能够支持最严苛的 AI 工作负载,例如用于训练和推理、具备思考能力的超大型密集 LLM 或 MoE 模型。每颗独立芯片的峰值计算能力高达 4,614 万亿次浮点运算每秒(4,614 TFLOPs),代表着 AI 能力的巨大飞跃。此外,Ironwood 的内存和网络架构确保了在如此庞大的规模下,始终能够提供正确的数据可支持峰值性能。
Ironwood 还配备了增强版的 SparseCore,这是一种专门用于处理高级排名和推荐系统工作负载中常见的超大规模嵌入(embeddings)的加速器。Ironwood 对 SparseCore 的支持扩大,使其能加速更广泛的工作负载,甚至跨越传统 AI 领域,进入金融和科学等领域。