专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
目录
相关文章推荐
十点读书  ·  拿捏人性的5个小技巧 ·  昨天  
龙岩图书馆  ·  6月14日(上午下午各一场)活动报名 | ... ·  20 小时前  
单向街书店  ·  【单向历】6 月 9 日,宜与夜空对话 ·  4 天前  
51好读  ›  专栏  ›  企业存储技术

MegaSacleOut:长距高性能网络千卡AI训练测试

企业存储技术  · 公众号  ·  · 2025-03-11 07:40

正文

请到「今天看啥」查看全文


图1 TCP和RDMA的典型流量


长距高性能实验网


在 2024 年 9 月,为有效满足业务对于 H800 和 H20 多模态混训的探索需求,一张长距高性能实验网正式建成。该实验网通过 120km 的光纤,搭配具备 400GbE 大端口、大缓存特性的交换机(DR),实现了 3.2T 带宽,成功连接了两个 GPU 园区。
为降低园区内拥塞发生的概率,在网络规划阶段,规划了 12.8T 的 DR-GPULC 互联带宽,确保了出园区的流量能够高效、顺畅地抵达 DR,将最关键的拥塞控制问题集中交由 DR 处理,最大程度地减少了跨园区流量对园区内流量的干扰,为多模态混训业务提供了稳定、高效的网络环境。
图片
图2 实验网架构

算力损失的理论建模


由于单台高端 GPU 服务器成本通常高达百万以上,使得 GPU 利用率成为业务中最关注的运营指标之一。跨园区网络与园区内网络相比,存在显著差异。其带宽相对更低,往返时延(RTT)更大,并且链路中断的概率更高。在业务的迭代过程中,这些特性导致通信时间在整个处理流程中的占比增加。由于 GPU 在通信等待期间处于闲置状态,从而使得 GPU 利用率下降,相对于单园区的运营模式,产生了所谓的算力损失。
实践表明,跨园区对计算时间、数据加载时间、园区内通信时间的影响微乎其微,所以算力损失的“罪魁祸首”就是跨园区通信时间,计算公式如下:
图片






请到「今天看啥」查看全文