正文
。
1. 引言
在快速演变的人工智能(AI)世界中,可扩展、稳健和高效的计算基础设施的可用性已达到前所未有的市场关注水平。随着AI技术继续扩展并渗透到每个行业,标准化、开放的AI系统开发方法变得越来越清晰,从而形成一个具有竞争力和弹性的供应链。开放计算项目(OCP)凭借其动态和创新的社区,处于这一运动的前沿,旨在引领构建开放、可持续和成本效益高的AI系统,服务于广泛的用户和应用。
AI基础设施的挑战
当前的AI计算需求正在挑战传统IT基础设施和数据中心设计的极限。今天构建AI基础设施的方法通常是分散的,导致整个生态系统的成本增加、部署延迟和效率低下。随着AI工作负载的复杂性和多样性不断增加,对AI基础设施的社区驱动方法的需求从未如此迫切。
图 1:知名模型随时间变化的训练计算量
开放计算项目(OCP)的愿景与战略举措:AI 开放系统
图 3:AI开放系统战略计划的主要工作领域
2. 符合开放计算项目原则
由于本文不涉及任何单一贡献或技术领域,而是概述了它们,因此与开放系统用于AI战略倡议的性质一致——一个涵盖多个项目的保护伞——隐含的假设是OCP社区的开发将继续反映OCP的原则。尽管可以说,今天AI集群正在推动我们原则的规模、可持续性、效率和影响方面的边界,战略倡议的名称本身也强调了开放性的重要性,正如本文引言中所述。
3. 系统视图
3.1 引言
本节提供了我们当前在AI/HPC基础设施中达到的状态的高级概述,并提出了未来系统级AI/HPC实施的可能方向。它并非作为明确的路线图,而是作为OCP社区内持续讨论的起点。
3.2 历史
到2021年初,数据中心/云/企业市场主要使用单CPU或多CPU系统,并带有加速器,显示出跨供应商的最小标准化。就在生成式AI出现之前,OCP社区引入了使用Open Rack v3(每个机架12kW)和新引入的开放加速器基础设施(OAI)的GPU加速AI/HPC系统,该基础设施具有通用基板(UBB)和开放加速器模块(OAI)。这一成功发布导致多个供应商采用这些规范并生产这些设计,NVIDIA在2022年推出了他们的HGX机箱,并将此规范贡献给OCP。这些架构优先考虑互连加速器密度——特别是每个4RU机箱中的8个加速器。
在2022年和2023年期间,OCP服务器项目向OCP社区贡献了数据中心模块化硬件系统(DC-MHS)规范集。DC-MHS引入了一个模块化平台架构,能够支持传统的19英寸机架形式以及新兴的21英寸Open Rack标准。这一新框架为更灵活的扩展策略打开了大门。
图 4:英伟达的伊恩・巴克(Ian Buck)在 2024 年开放计算项目全球峰会(Open Compute Project Global Summit)主题演讲中,宣布 GB200 NVL72 相关成果
图 5:来自 Meta 公司的奥马尔・巴尔丹多(Omar Baldando)在 2024 年开放计算项目全球峰会主题演讲中,关于 Catalina 发布的幻灯片内容。
3.3 物理系统设计
图 6:从组件到集群的AI架构
概念
整个生态系统协同合作与参与的必要性
组件 - 处理单元
机箱 - Tray
服务器 - 计算节点
图 7:为清晰展示而移除散热器的 OAI OAM/UBB 系统特写
图8:Aivres的OAI OAM/UBB系统 4OU
图 9:《The Register》刊载的英伟达 HGX 主板图片