专栏名称: 数据中心运维管理
专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。
目录
相关文章推荐
数据中心运维管理  ·  弱电智能化中究竟有多少个子系统? ·  19 小时前  
数据分析与开发  ·  突发!TP-Link ... ·  20 小时前  
程序员鱼皮  ·  9大策略,搞定MySQL多表JOIN性能优化 ·  23 小时前  
数据中心运维管理  ·  讲一讲开关电源并联均流技术…… ·  2 天前  
数据中心运维管理  ·  如何有效处理数据中心停机 ·  2 天前  
51好读  ›  专栏  ›  数据中心运维管理

运营商智算中心建设思路及方案

数据中心运维管理  · 公众号  · 数据库  · 2025-02-10 21:23

正文

请到「今天看啥」查看全文



上述三大统计特征揭示了,随着参数模型量越来越大,模型对训练所需算力的需求越来越大,随着Sora等多模态视频模型的兴起,参数量规模剧增,OpenAI的GPT-4以及Google的Gemini Ultra都宣称达到了万亿级参数 [5] 。参数量剧增导致训练所需的数据量越来越大,有预测认为,到2026年文本数据将被训练完,图像数据将在2040年前后被用完,合成数据将会是未来数据的主要来源 [6] ,数据量规模会再一次量级跃迁,对存储的规模和性能带来更大的挑战。此外,智算集群的规模也从百卡发展到万卡,甚至十万卡级别,对网络通信的带宽和时延要求越来越高。

1.2 算力需求和挑战

在Transformer模型结构中,算力需求与模型参数规模、数据量具有相关性,具体如表1所示。

表1 算力需求和模型参数规模

图片

按照上述关系,以GPT-3 175B的参数量(1 746亿)为例,其训练算力的需求为6×174.6B×300B=314 000 EFLOPS。若采用910B(376 TFLOPS@FP16)集群,按照GPU利用率为30%,训练28天,则需要约1150张910B GPU卡。

按照上述测算,对于万亿参数模型,则需要万卡级规模集群;对于十万亿参数模型,则需要十万卡级规模集群。因此,为了实现通用人工智能AGI,国内外互联网厂商纷纷开始“囤卡”。在算力需求倍增的同时,带来如下挑战。

a)对显存容量和性能的挑战。GPU卡中的高带宽存储器(High Bandwidth Memory,HBM)是基于3D堆栈工艺的高性能DRAM,其本质是将多个DDR芯片堆叠后和GPU一起封装。目前,AI算力增长速度远高于显存容量和性能的增长速度,以英伟达A100、H100为例,虽然H100较A100的算力增长了将近3倍,但显存容量没增长,带宽只增长了近2倍,这对分布式显存调度提出了更高的要求 [8] 。此外,当前HBM的主要厂商为海力士、三星和美光,国产GPU卡可能无法使用最新的HBM技术,显存能力演进受限。

b)对散热和资源的挑战。从GPU卡的演进来看,GPU模型的算力和功耗成比例增长, 昇腾910B 芯片TDP为392 W,单台训练服务器功耗达到5.2kW。以GPT-3为例,训练所需电量达到1287 MW(碳排放为502 t),每天推理需要用电50万 kWh,冷却设备所需的水达到70万 L,对电力资源和水资源都是巨大挑战 [9]

c)对GPU跨厂家协同、跨代际演进的挑战。跨厂家GPU因为软件生态、底层算子不同,导致上层模型无法一次编译后异构执行。即使采用同一厂家的GPU,也因为不同型号GPU的算力、显存和通信能力甚至算子优化不同,共集群训练时面临性能损失、无法发挥优势的问题。

d)对供应链保障的挑战。受美国芯片禁令的影响,国内将无法购买国外先进的GPU产品,国内GPU的产能和生态面临巨大挑战。

1.3 存储需求和挑战

AI大模型的训练和推理都会涉及到数据的存取。在训练之前的数据预处理阶段,需要对海量数据进行处理,包括格式对齐、归一化、去重、隐私保护、异常值处理等。训练阶段涉及海量小文件的训练数据存取和训练过程中参数文件的周期性保存;在推理阶段,需要读取本地存储的模型参数,并对实时样本进行处理,输出推理结果。

AI大模型的训练和推理对存储带来的挑战如下。

a)对数据访问性能的挑战。一方面是大量小文件带来的元数据访问挑战,另一方面则是海量小文件并发快速读取、Checkpoint周期保存参数对数据存取带来的挑战。

b)多模态数据统一访问的挑战。对于视频和图片多模态数据输入,会对原始文件进行特征提取并以小文件的形态保存,因视频和图片原始特征复杂,处理后数据量倍增。此外,为便于后续对多模态原始和特征数据的存取,需要建立相应的快速检索机制和内容审核能力。

c)对数据安全的挑战。复杂繁多的数据处理环节,导致数据处理存在诸多安全风险,包括数据隐私泄露、数据违规侵权、数据不可追溯、数据操作不合规等。

1.4 组网需求和挑战

在大模型训练和推理中,主要的关键网络和相关通信挑战如下。

a)训练数据到训练计算集群的网络通信。当前数据源和数据存储主要靠近人类居住密集和业务热点区域,和自然土地资源、电力资源相对丰富的西部地区距离较远。在训练时,需将训练数据传输到西部节点,这类数据对实时性要求不高,可以采用快递硬盘或者互联网专线进行传输,以节约成本,但互联网专线因业务模式的问题,当前成本相对较高。以传输0.7 PB数据为例,采用2.5寸的3.68 TB硬盘进行数据存储,需要约50块硬盘,如果采用航空快递,1 000 km的快递成本预计为1 000元、时间预计为24 h;若租赁1 Gbit/s有保障的互联网专线,按照30 000元/月的价格(按照每月30天,每天费用为1 000元)计算,约1.5 h可完成数据传输。

b)训练时单 GPU服务器 的卡间通信。为提升大模型的训练速度,一般会采用数据并行、流水线并行和张量并行,其中张量并行的并行度一般和单GPU服务器的卡数量等同,张量并行对卡间实时通信的带宽和时延带来挑战。当前卡间通信的结构主要有总线结构(例如昇腾HNCCS通信方式)和交换结构(例如英伟达NvLink通信方式)2种,总线结构因布线复杂和制程工艺要求较高,带宽和扩展性受限。国产卡较多采用总线结构,卡间互联带宽远低于国外产品,同时单机内卡规模数一般不超过8,导致张量并行度受限。

c)训练时GPU服务器集群的通信。数据并行和流水线并行对集群内机间实时通信的带宽和时延带来挑战。为了减少计算单元的闲置,需要在流水线单元的计算周期内完成前序数据的同步和通信,一般要求在百毫秒级完成数据通信,按照10GB级的通信量,集群内机间带宽应至少达到100 Gbit/s,且随着单卡算力和吞吐的增加,对机间带宽的需求也同步增加。此外,为了避免数据重传,一般要求集群内组网为无损网络。






请到「今天看啥」查看全文


推荐文章
数据中心运维管理  ·  弱电智能化中究竟有多少个子系统?
19 小时前
程序员鱼皮  ·  9大策略,搞定MySQL多表JOIN性能优化
23 小时前
数据中心运维管理  ·  讲一讲开关电源并联均流技术……
2 天前
数据中心运维管理  ·  如何有效处理数据中心停机
2 天前
百姓关注  ·  天气很温柔 是个出游的好时机!
8 年前
奔波儿灞与灞波儿奔  ·  你下面水怎么那么多啊,吓我一跳...
8 年前