专栏名称: 吉时通信
连通资本与实业,关注大通信业变迁趋势!及时的行业资讯、投研观点分享
目录
相关文章推荐
安徽省人民政府网  ·  安徽与中亚五国经贸往来势头良好 ·  17 小时前  
海南市场监管  ·  知识产权丨认识海南地理标志 ... ·  19 小时前  
海南市场监管  ·  知识产权丨认识海南地理标志 ... ·  19 小时前  
IPRdaily  ·  海外预警 | ... ·  2 天前  
51好读  ›  专栏  ›  吉时通信

【国盛通信·深度】AI的新视角:从算力之战到能源之争——通信策略之AI基础设施篇

吉时通信  · 公众号  ·  · 2024-12-19 23:49

正文

请到「今天看啥」查看全文



GPU、TPU功耗: H100 NVL的最大功率可达到800W。则2030年预计将有17136万个GPU,假设GPU、TPU能耗占IT设备总能耗的90%,假设美国占比34%,利用率为80%,PUE为1.3计算,2030年美国AIDC中GPU电力需求约为54GW(GPU数量*GPU功耗*美国占比*PUE*利用率÷芯片占比=17136万个*0.8kW*34%*1.3*80%÷90%=54GW);


而根据谷歌官方说法,TPU v4芯片平均功率为200W,结合上述2030年在用TPU量约为4139万的估计,我们预计2030年TPU总功耗约为3.3GW(其他指标假设与GPU相同)。


角度一结论:2030年美国AIDC用电总量为57GW。 23-26年芯片存量仅考虑23年之后的芯片出货量进行加总,其他计算方法与上述方法相同,27年至30年与上述计算方法相同,最终加总GPU与TPU功耗得出美国AIDC所需电容量在24-30年将分别达到3/6/10/17/25/38/57GW。


假设一:芯片增速为每年50%(参考台积电说法)。

假设二:假设芯片平均寿命为5年(参考英伟达给出的GPU寿命)。

假设三:IT设备平均功率利用率为90%(考虑IT设备中NVSwitches、NVLink、NIC、重定时器、网络收发器等功耗,假设GPU、TPU耗能占比90%,其他IT设备耗能占比10%)。

假设四:考虑IT不可能都满负荷运行,且不可能永远24小时运行,参考Semi analysis,将可能利用率设置为80%。

假设五:PUE为1.3(PUE为数据中心总耗电量除以IT设备所用电量)。

假设六:美国算力需求占比全球34%(经中国信息通信研究院测算,美国在全球算力规模中的份额为34%)。


1.3.2测算角度二(乐观):数据中心


测算逻辑:测算角度二是从数据中心建设角度出发,参考第三方预测的全球数据中心建设进度(复合增速25%),同时由于预测数据截至2026年,我们假设2027至2030年依旧维持25%的复合增速,对全球数据中心电力需求进行预测,并假设其中AIDC的用电量和占比,因此我们认为,该预测角度得到的数据较为“乐观”,最终预测到2030年美国AIDC用电需求最高为91GW。


研究公司SemiAnalysis利用了5000多个数据中心的分析和建设预测,并将这些数据与全球数据以及卫星图像分析相结合,预计未来几年数据中心电力容量增长将加速至25%的复合年增长率,同时AIDC占比将进一步提升,数据中心方面,根据预测数据,全球数据中心关键IT电力需求将从23年的49GW激增到26年的96GW,我们假设27-30年继续保持数据中心25%的复合增速(参考2023到2026年增速,为25%),那么到29、30年全球数据中心关键IT电力需求分别增长至188、234GW;参考Semi Analysis数据,结合AI算力蓬勃发展、下游应用陆续爆发大背景,我们认为未来AI在数据中心中占比有望持续加速提升,因此我们假设23-30年全球AIDC占比分别达到12%/16%/30%/44%/56%/68%/78%/88%,从而计算出29、30年全球的AIDC IT设备电力需求分别为65GW、91GW。


角度二结论:以美国占比为34%,PUE为1.3计算,到2030年美国AIDC电力需求将达到91GW。



假设一:结合AI算力蓬勃发展、下游应用陆续爆发大背景,我们认为未来AI在数据中心中占比有望持续加速提升,因此我们假设23-30年全球AIDC占比分别达到12%/16%/30%/44%/56%/68%/78%/88%。

假设二:PUE为1.3(PUE为数据中心总耗电量除以IT设备所用电量)。

假设三:美国算力需求占比全球34%(经中国信息通信研究院测算,美国在全球算力规模中的份额为34%)。


1.3.3总结一:AIDC占比全美总耗电比例提升

(1)AI耗电量占全美耗电量比重提升,占比有望超1成


根据Statista预测数据,2022年,美国的电力使用量约为4085太瓦时,预计未来几十年美国的电力使用量将继续上升,到2030年达到4315太瓦时(对应493GW),到 2050年将达到5178太瓦时。 根据我们前面的“测算角度一”,假如2030年AIDC总功耗最高为57GW,那么占全美用电量的比重将提升至12%(57GW/493GW),较2023年的4%大幅提升。



1.3.3总结二:AIDC耗电量有望比肩比特币挖矿


在我们2024年8月6日发布的报告《AI东风已至,比特币矿场开启第二增长曲线》中,对比特币矿场用电量进行过假设和预测,在该报告中,据我们预测2024/2025/2026/2027/2028年得州比特币矿场负荷分别为4.7/6.5/8.3/10.1/11.9GW(假设得州比特币矿场年新增负荷为1.8GW),关于得州比特币矿场负荷在美国的份额,我们假设保持28.5%不变,因此据我们预测美国比特币矿场年负荷分别为17/23/29/36/42GW。


为了方便对比,我们将数据预测至2030年,假设:1)得州比特币矿场年新增负荷为1.8GW,2)假设2029年和2030年德州矿场份额保持28.5%不变。因此得出2024/2025/2026/2027/2028/2029/2030年,美国比特币矿场每年耗电分别为17GW/23GW/29GW/26GW/42GW/48GW/54GW。



结论:保守预测下,美国AIDC耗电量将在2030年赶超比特币挖矿电力需求;乐观预测下,美国AIDC电力需求将在2029年超过比特币挖矿。


2、困境何解:短期“天然气+”是主流

2.1短期内最快落地方案是天然气


2.1.1 变电站成为传统用电瓶颈


【数据中心供电的现状】

购买电力与变电站: 数据中心通常通过与电力公司签订合同来购买电力,这意味着数据中心的电力供应是从发电站生成的电流经过传输网络输送到数据中心。然而,电力经过长距离输送后,电压通常需要通过变电站进行调整,以确保电力符合数据中心的电压需求。


变电站的必要性: 变电站将高电压的电力转化为适合本地使用的低电压。大多数电力系统都需要经过变电站进行电压转换和分配。若没有本地变电站,电力就无法直接用于数据中心。


变电站的建设难度较大、周期较长、成本较高: 变电站的建设通常需要大量资金投入,涉及到土地、基础设施建设、设备采购和人力储备等。此外,变电站建设的周期较长,且需要满足严格的环境和安全标准。


结论:目前现有买电方式下,变电站成为制约AIDC用电的瓶颈。 由于数据中心的电力需求不断增长,新建变电站或扩容现有变电站需要较长的时间,而且需要大量的审批和建设时间,可能无法迅速跟上数据中心的需求。



【天然气不需要变电站,是分布式供电的优选】

天然气发电不依赖变电站。 天然气发电是通过燃烧天然气产生电力,天然气发电站通常与数据中心通过专用管道连接,直接将天然气输送到发电设施进行燃烧发电,然后生成的电力通过当地的电网或专用线路供应给数据中心, 通常可以在数据中心附近的发电设施中完成 ,与传统电力传输方式不同, 天然气发电不需要经过高压电力传输网,因此不依赖于远程变电站和电力输送设施 。天然气发电可以在数据中心附近建造小型的天然气发电站(如分布式发电系统),降低对外部电网的依赖,同时缩短电力供应的响应时间。


2.1.2 AI快速发展与SMR核电落地存在时间差


虽然核电在诸多方面具备优势,但北美算力市场当下最重要的需求是“快速实施”,迅速点亮GPU获得算力,天然气成为当下首选。


尽管2023年2月美国核管理委员会批准核电公司Nuscale Power设计首个SMR(Small Modular Reactors小型模块化反应堆),且中俄等世界各国都在竞相将SMR技术付诸实践,但SMR的商业化仍需要一段时间,安全审批流程复杂且较为耗时。 目前已经可以看到SMR已唤起全球对核能的兴趣。在美国核裂变行业已获得《通胀削减法案》提振,该法案包括多项税收抵免和激励措施,同时为核能办公室提供7亿美元资金,用于支持发展高纯度低浓缩铀(SMR 所需的燃料)的国内供应;全球有70多种商业SMR设计正在开发中,且目前已经有两个SMR项目在中国和俄罗斯运营。但根据美国能源监管部门的说法,核反应堆是极其复杂的系统,必须符合严格的安全要求,并考虑到各种各样的事故情景,且许可流程繁琐且因国家而异。这意味着SMR需要一定的标准化才能进入商业市场,因此需要寻找其他方案解决短期的能源短缺问题。



2.2“天然气+多能源”搭配更稳健


天然气+其他多能源的搭配方案,是目前能适应AI电力需求的最快落地方案。 相比SMR核电这种高能量密度但部署周期较长的独立解决方案,天然气发电因其高效性和灵活性,可作为基础能源快速响应负载需求,同时与可再生能源、燃料电池、储能系统协同使用,有效弥补间歇性和稳定性不足。这种多能源组合既能满足AI数据中心对稳定供电的需求,又在碳排放和成本之间提供平衡,成为当前数据中心能源战略的重要选择。


协同不是必需 ,但对于需要综合平衡稳定性、环保性和成本的大规模AI数据中心,协同使用多能源方案是更灵活且长远的选择,有明确目标(如低成本、超快速部署)的情况下,单一方案也可以满足:


【仅用天然气发电(单一方案)】

  • 优点:天然气发电本身可以作为独立的供电方案,适合对电力需求稳定、快速部署要求高的场景,尤其是需要高可调度性的AI数据中心;

  • 局限:虽然部署速度快,但长期来看碳排放较高。


【多能源协同的必要性】

  • 更稳定安全:AI数据中心对电力连续性要求极高(不允许短时断电),可以采用天然气+储能系统或燃料电池作为后备支持;

  • 更环保:天然气+风能、太阳能等低碳能源搭配。



2.3天然气方案:以xAI为例


天然气发电技术路径成熟、配套设备完善、且性价比较高,在短期内是能够最快解决AI电力短缺问题的选择,特斯拉xAI采用天然气方案作为应急电力供应。 天然气发电机是一种使用天然气而不是汽油或柴油的发电机。相比于柴油,天然气购买成本较低且不存在“湿堆积”问题。因此从短期的能源解决方案来看,天然气发电机相比于燃油等其他使用化石燃料的发电机相比具有成本效益、运行效率高、更环保等优势。根据DCD报道,目前特斯拉CEO马斯克已从Voltagrid采购了14台移动天然气发电机,每台发电机可提供2.5 MW电力,用以缓解其初创公司xAI的数据中心电力短缺问题。


*补充细节1:马斯克xAI主要采用英伟达H系服务器,集群散热采用液冷方案。 xAI数据中心中的每个液冷机架包含8个英伟达H100 GPU服务器,总计64块GPU,密集布局要求每个计算节点都能高效散热,传统风冷方式难以适应,因此xAI选择了超微的液冷方案。


*补充细节2:xAI数据中心同时采用了Megapack储能系统。 xAI表示其团队在建设计算集群时发现AI 服务器并不会全天候以100% 的功率运行,而是存在许多功耗的峰值和谷底,因此在中间添加特斯拉的电池存储产品Megapack来缓冲波动,从而提高整体系统的可靠性,减少电力损耗。



2.4燃料电池:以Bloom Energy为例


公司概况: Bloom Energy专注于开发高效、低排放的能源技术,致力于通过创新的固体氧化物燃料电池(SOFC)和固体氧化物电解槽(SOEC)技术,推动全球能源转型。 作为一家领先的清洁能源公司,公司通过其先进的氢气和燃料电池技术,致力于为工业、商业以及数据中心等高需求领域提供可持续、可靠的能源解决方案。公司成立于2001年,总部位于美国加利福尼亚州,并在全球范围内拓展业务。


核心技术: 公司核心技术包括固体氧化物燃料电池(SOFC)和固体氧化物电解槽(SOEC),SOFC系统在使用100%氢气时提供高效的电力输出,电气效率高达65%,远超传统能源系统。Bloom Energy的燃料电池系统还能够集成热电联产(CHP)技术,使得总能效高达90%,从而有效降低能源消耗和碳排放。此外,SOEC技术可用于高效的氢气生产,是清洁能源转型中的关键技术之一。


产品应用: 公司产品广泛应用于多个领域,包括工业电力供应、商业能源管理和数据中心能源解决方案。特别是在数据中心领域,随着对能源高效性和碳中和目标的需求不断增加,Bloom Energy的燃料电池技术的高效、低排放的特点更为突出,其氢气解决方案不仅可以满足大规模能源需求,还能为企业提供可靠的备用电源,确保运营的连续性和稳定性。目前Bloom Energy的市场已经覆盖北美、亚洲和欧洲等多个地区,尤其是在韩国与SK Ecoplant的合作中,Bloom Energy的氢气燃料电池项目预计将在2025年上线。此外,公司已经宣布与 AEP 达成千兆瓦燃料电池采购协议,为 AI 数据中心提供动力。


3、中期方案:SMR核电脱颖而出

3.1 为什么是核电:更适配AI


3.1.1AIDC的特征:分布式与高密度


AIDC算力中心与传统IDC数据中心相比较,有两大最显著的区别,也是AIDC的重要特征。


【AIDC特征一:分布式部署】

AI的应用场景和任务要求等决定了AIDC需要采用分布式部署方式。 AIDC与传统的IDC在计算需求、应用场景、资源消耗等方面有显著差异,AIDC的任务通常是计算密集型的,尤其是AI领域的大规模深度学习、机器学习、数据分析等任务,单个计算节点无法承载所有的任务,因此,AIDC需要将计算任务拆分成多个小任务,通过分布式计算框架将任务分发到多个节点并行计算,这就需要多个地理位置的数据中心或计算节点协同工作。


【AIDC特征二:24小时高密度计算】

AI计算任务的持续性与高负载决定了AIDC必须24小时高负荷运转,对电力资源和冷却支持的要求更高。 AI模型训练往往是一个长周期的过程,需要持续的计算力支持,因此AIDC通常会进行长时间持续的计算任务;传统IDC的负载一般会根据业务需求有所波动,且很多应用不需要如此长期、不间断的计算支持。因此AIDC的高功耗计算硬件需要全天候的强电力供应和冷却支持。



AIDC的分布式部署+高密度计算特征,决定了其他能源难以满足适配,而小型核电SMR最符合供电需求。


推力——其他能源不适配AI需求,稳定性和地理区域选址均难以满足AIDC:

  • 水电 的季节性较为明显,难以满足稳定大量的供电需求,同时水资源丰富的地理位置是固定的,难以满足AIDC的分布式部署需求,同时水电需要配电网传输电力,整体成本较高,新建成本和时间更高;

  • 火电 的燃料成本较高,且碳排放限制严格,即便购买碳排放指标,也会使得火电的综合成本更高,因此并不适用需要大量耗电的AIDC,同时火电也面临配电网导致成本较高的问题;

  • 其他新能源 (如太阳能、风能等)虽然清洁,但其发电能力受到天气条件和地域限制的影响较大,间歇性和不稳定性使得它们无法在高负载的情况下确保AIDC全天候稳定运行,此外部分新能源比如光伏的转化效率尚低,且后期运维成本较高,从性价比角度出发也不适用于AIDC。







请到「今天看啥」查看全文