正文
随着前沿AI大模型的参数量从数百亿升至数万亿级别,集群算力的需求呈指数级攀升,这类模型遵循规模化法则(Scaling Law),即模型性能与模型参数量、数据集规模和计算量之间存在幂律关系,这意味着模型效果会随着三者的指数级增长呈线性提升。
首先,在大模型的训练过程中,每一轮迭代,GPU之间都需要传递海量的梯度数据,这就要求构建GPU计算单元之间的全互联高速数据通道,以确保数据的高效传输。然而,随着模型参数和规模的不断扩大,其对GPU之间互联能力的要求也越来越高,对通信性能的要求也变得更加苛刻。例如万卡池全互联大约需要5 000万条连接,这对网络的承载能力提出了巨大挑战。其次,服务器内和服务器间的GPU必须支持高速互联,以千亿参数规模的AI模型为例,训练过程中服务器内和服务器间的部分集合通信会产生高达百GB量级的通信数据量。此外,满足高吞吐、低时延的机间通信同样至关重要,为了确保算力效率不下降,网络传输延迟需要从毫秒级降至微秒级。降低网络时延的关键在于解决由网络拥塞和丢包引起的动态时延问题。同时,在AI大模型训练任务周期中,确保网络零丢包极为关键,零丢包是保障有效吞吐与数据搬移效率的基础。因此,如何满足大规模GPU之间的高效通信,构建超大规模、超大带宽、超低时延、超高可靠的智算网络,已经成为当前智算网络发展的重要挑战。
我国高度重视智能计算领域的发展,积极推动智算中心的建设。智算网络的研究也在不断进步,万卡、十万卡以及更大规模资源池的建设成为行业发展的新趋势。近年来,各大运营商及头部互联网企业都在加速布局超大规模的智算中心,抢占市场先机,大规模集群建设成为新的竞争赛道,国内算力基础设施建设正在加速期。中国电信上海“临港智算谷”启用了首个国产万卡液冷算力池,在京津冀、长三角构建云智、训推一体的算力布局,智能算力规模达到21 EFlops。中国移动智算中心(呼和浩特)万卡池全面投产运营,与哈尔滨、贵阳的网卡集群形成三大算力中心,智能算力总规模达到6万张GPU卡。中国联通的首个万卡集群也将在上海临港建成。阿里云采用专为AI计算设计的HPN高性能网络架构建成万卡集群,并已扩展至十万卡级别。百度升级AI异构计算平台“百舸”,具备了10万卡集群的部署和管理能力。
在全球范围内,美国在人工智能基础设施市场中占据领先地位,全球智算中心行业主要分布在北美、亚太和欧洲等地区。微软、Meta、xAI等科技企业正在加速智算中心的建设。OpenAI与微软合作的“星际之门”超级人工智能计算机项目备受瞩目,该项目目前处于第3阶段,计划发布由5万卡集群提供50 EFlops算力训练的GPT-5大模型;第4阶段将发布十万卡GB200集群,预计提供250 EFlops算力训练的GPT-6大模型;最终阶段将建成百万卡集群,提供超过10 ZFlops的算力规模。Meta已经构建了2个24K的GPU集群,并计划将其扩展至35万张英伟达H100 GPU,宣称将在超10万卡的集群上进行Llama4的训练。xAI的AI智算中心“Colossus”计划建设30万卡规模,分批次部署,目前已经部署了10万英伟达H100 GPU卡,短期目标为将规模扩大至20万卡。总体来看,智算网络在全球范围内呈现出快速发展的态势,随着技术的不断进步,市场的规模将持续扩大,进一步推动人工智能基础设施的升级。
智算网络体系是为了满足大模型等AI业务对算力的超高要求而构建的高性能网络体系。在智算网络体系中,算力是基础,主要包括高性能的计算资源,如GPU服务器集群,这些集群通过内部高速互联网络实现多GPU卡的并行工作,从而大幅提升计算效率;网络连接是智算网络体系中的关键组成部分,负责连接各个算力单元,确保数据流通的高效性与稳定性。