正文
因此,虽然许多参与者同意液体冷却通过降低能源消耗(通常通过减少或移除服务器风扇功率)可以实现运营成本节省(约10%),但与液体冷却更高的资本支出、增加的复杂性和运营风险以及不太了解的供应链相比,这不足以成为转向液体冷却的强烈动机。众所周知,液体冷却可以实现更高密度,从而节省空间——但物理空间对数据中心来说是一个小成本项目,因为大多数成本是由关键IT功率衡量的。
液体之所以更有效率,并且可以允许更高的密度,是因为它每单位体积吸收的能量比空气多4000倍。在能源效率方面,这被泵和复杂的管道需求部分抵消:水的密度比空气大830倍,这使得移动更加困难。
注意,液体流量和泵送能量有线性关系。然而,通过DLC增加机架密度有它自己的一系列挑战——特别是在管道和管道工程。超高的密度可能需要非常大的管道和昂贵的材料。
如今,风冷仍然是人工智能领域的主导技术。英伟达针对H100数据中心部署的参考设计为每个机架最多提供4台风冷服务器,总计41 kW。参考设计解释说,在大多数风冷数据中心,冷却过载经常限制操作员每行安装8个GPU服务器机架(以及另外两个用于存储和网络设备),这意味着在这个设计中有8个机架是空的!然而,也有可能进一步增加密度——一些技术,如冷门背板(RDHx)或柜内空气密封技术,如DDC柜技术,使每个机架的密度超过50kW。
密度的主要限制原因之一是在服务器级别。高
TDP
芯片需要一个更大的散热器——这就是为什么拥有8个图形处理器的英伟达 HGX服务器往往非常大(8RU),而这种TDP和散热需求将在未来一代中增加,如风冷的Blackwell SKUs.
相比之下,在服务器中引入液体可以在类似的功率消耗下实现更紧凑的设计。英伟达为
Blackwell的大多数sku选择了直接到芯片的单相技术:这种设计包括使用直接放置在最热门的芯片(GPU和CPU)上的铜板。风扇仍然需要风扇移除非液体冷却过的部件中剩余的热量,如网卡、存储器和收发器——最高可达机架总散热量的15%。
这些金属板被提供了冷水,送出温水。这个水环管通过机架内的一个
分集水器
流动。
该回路通常由一个冷却液分配单元(CDU)来处理,如下图所示。
CDU可以是大的和集中的排在列内的单元(1MW+容量),也可以是更小的机架内的单元(~100kW为4U)。对于大型部署,行内部署通常是首选,因为它更便宜,而且维护更容易(组件更少)。然而,考虑到上市时间的基本价值,以及供应链相对较新,如果出现问题,终端客户希望“指向”一家供应商,而不是进行长时间的指责会议,试图确定故障所在。因此,像超微这样的OEM的集成机架解决方案供应商在大规模部署中获得了一定的吸引力。在这两种情况下,CDU都位于IT机房内。
下图显示了真实生活中的CDU:一个是Rittal的行CDU(1MW冷却能力),另一个是机柜底部机架内的CDU,冷却能力为80 kW。