专栏名称: 数据中心运维管理
专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。
目录
相关文章推荐
阿里云大数据AI平台  ·  【5月重点功能发布】阿里云大数据+ AI ... ·  16 小时前  
阿里云大数据AI平台  ·  【5月重点功能发布】阿里云大数据+ AI ... ·  16 小时前  
数据分析与开发  ·  突发!Anthropic 断供 ... ·  19 小时前  
数据中心运维管理  ·  施耐德电气PowerLogic™ ... ·  2 天前  
数据中心运维管理  ·  6月1日起实施!我国首部绿色数据中心评价国标 ... ·  3 天前  
数据中心运维管理  ·  应急预案和应急演练到底怎么做? ·  2 天前  
51好读  ›  专栏  ›  数据中心运维管理

液冷设计指南及行业巨头液冷架构剖析

数据中心运维管理  · 公众号  · 数据库  · 2025-04-11 11:07

正文

请到「今天看啥」查看全文


因此,虽然许多参与者同意液体冷却通过降低能源消耗(通常通过减少或移除服务器风扇功率)可以实现运营成本节省(约10%),但与液体冷却更高的资本支出、增加的复杂性和运营风险以及不太了解的供应链相比,这不足以成为转向液体冷却的强烈动机。众所周知,液体冷却可以实现更高密度,从而节省空间——但物理空间对数据中心来说是一个小成本项目,因为大多数成本是由关键IT功率衡量的。

液体之所以更有效率,并且可以允许更高的密度,是因为它每单位体积吸收的能量比空气多4000倍。在能源效率方面,这被泵和复杂的管道需求部分抵消:水的密度比空气大830倍,这使得移动更加困难。

注意,液体流量和泵送能量有线性关系。然而,通过DLC增加机架密度有它自己的一系列挑战——特别是在管道和管道工程。超高的密度可能需要非常大的管道和昂贵的材料。

IMG_329

如今,风冷仍然是人工智能领域的主导技术。英伟达针对H100数据中心部署的参考设计为每个机架最多提供4台风冷服务器,总计41 kW。参考设计解释说,在大多数风冷数据中心,冷却过载经常限制操作员每行安装8个GPU服务器机架(以及另外两个用于存储和网络设备),这意味着在这个设计中有8个机架是空的!然而,也有可能进一步增加密度——一些技术,如冷门背板(RDHx)或柜内空气密封技术,如DDC柜技术,使每个机架的密度超过50kW。

IMG_330

密度的主要限制原因之一是在服务器级别。高 TDP 芯片需要一个更大的散热器——这就是为什么拥有8个图形处理器的英伟达 HGX服务器往往非常大(8RU),而这种TDP和散热需求将在未来一代中增加,如风冷的Blackwell SKUs.

相比之下,在服务器中引入液体可以在类似的功率消耗下实现更紧凑的设计。英伟达为 Blackwell的大多数sku选择了直接到芯片的单相技术:这种设计包括使用直接放置在最热门的芯片(GPU和CPU)上的铜板。风扇仍然需要风扇移除非液体冷却过的部件中剩余的热量,如网卡、存储器和收发器——最高可达机架总散热量的15%。

IMG_331

这些金属板被提供了冷水,送出温水。这个水环管通过机架内的一个 分集水器 流动。

IMG_332

该回路通常由一个冷却液分配单元(CDU)来处理,如下图所示。

IMG_333

CDU可以是大的和集中的排在列内的单元(1MW+容量),也可以是更小的机架内的单元(~100kW为4U)。对于大型部署,行内部署通常是首选,因为它更便宜,而且维护更容易(组件更少)。然而,考虑到上市时间的基本价值,以及供应链相对较新,如果出现问题,终端客户希望“指向”一家供应商,而不是进行长时间的指责会议,试图确定故障所在。因此,像超微这样的OEM的集成机架解决方案供应商在大规模部署中获得了一定的吸引力。在这两种情况下,CDU都位于IT机房内。

IMG_334

下图显示了真实生活中的CDU:一个是Rittal的行CDU(1MW冷却能力),另一个是机柜底部机架内的CDU,冷却能力为80 kW。

IMG_335

IMG_336

02

数据中心冷却系统的未来







请到「今天看啥」查看全文