液冷设计指南及行业巨头液冷架构剖析

数据中心运维管理 · 公众号 · 数据库 · 2025-04-11 11:07

正文

请到「今天看啥」查看全文

因此，虽然许多参与者同意液体冷却通过降低能源消耗(通常通过减少或移除服务器风扇功率)可以实现运营成本节省(约10%)，但与液体冷却更高的资本支出、增加的复杂性和运营风险以及不太了解的供应链相比，这不足以成为转向液体冷却的强烈动机。众所周知，液体冷却可以实现更高密度，从而节省空间——但物理空间对数据中心来说是一个小成本项目，因为大多数成本是由关键IT功率衡量的。

液体之所以更有效率，并且可以允许更高的密度，是因为它每单位体积吸收的能量比空气多4000倍。在能源效率方面，这被泵和复杂的管道需求部分抵消:水的密度比空气大830倍，这使得移动更加困难。

注意，液体流量和泵送能量有线性关系。然而，通过DLC增加机架密度有它自己的一系列挑战——特别是在管道和管道工程。超高的密度可能需要非常大的管道和昂贵的材料。

如今，风冷仍然是人工智能领域的主导技术。英伟达针对H100数据中心部署的参考设计为每个机架最多提供4台风冷服务器，总计41 kW。参考设计解释说，在大多数风冷数据中心，冷却过载经常限制操作员每行安装8个GPU服务器机架（以及另外两个用于存储和网络设备），这意味着在这个设计中有8个机架是空的！然而，也有可能进一步增加密度——一些技术，如冷门背板（RDHx）或柜内空气密封技术，如DDC柜技术，使每个机架的密度超过50kW。

密度的主要限制原因之一是在服务器级别。高 TDP 芯片需要一个更大的散热器——这就是为什么拥有8个图形处理器的英伟达 HGX服务器往往非常大（8RU），而这种TDP和散热需求将在未来一代中增加，如风冷的Blackwell SKUs.

相比之下，在服务器中引入液体可以在类似的功率消耗下实现更紧凑的设计。英伟达为 Blackwell的大多数sku选择了直接到芯片的单相技术：这种设计包括使用直接放置在最热门的芯片（GPU和CPU）上的铜板。风扇仍然需要风扇移除非液体冷却过的部件中剩余的热量，如网卡、存储器和收发器——最高可达机架总散热量的15%。

这些金属板被提供了冷水，送出温水。这个水环管通过机架内的一个分集水器流动。

该回路通常由一个冷却液分配单元（CDU）来处理，如下图所示。

CDU可以是大的和集中的排在列内的单元（1MW+容量），也可以是更小的机架内的单元（~100kW为4U）。对于大型部署，行内部署通常是首选，因为它更便宜，而且维护更容易（组件更少）。然而，考虑到上市时间的基本价值，以及供应链相对较新，如果出现问题，终端客户希望“指向”一家供应商，而不是进行长时间的指责会议，试图确定故障所在。因此，像超微这样的OEM的集成机架解决方案供应商在大规模部署中获得了一定的吸引力。在这两种情况下，CDU都位于IT机房内。