专栏名称: 百度智能云

聚焦人工智能（AI）、大数据（Big Data）、云计算（Cloud），以“ABC”三位一体战略，帮助企业客户实现数字化、智能化转型。百度云，智能，计算无限可能！

当AI算力遇上 “指数爆炸”，看百舸4.0如何力挽狂澜

百度智能云 · 公众号 · 科技公司 · 2025-01-10 18:14

正文

请到「今天看啥」查看全文

十万卡规模算力集群：通往AGI的必经之路

或许有人会问，真有必要将算力集群规模扩大到 “十万级别” 吗？答案是肯定的。自大模型技术问世以来，【Scaling Law】作为第一性原理已被广泛认可。简而言之，就是用更大的算力去训练更大的模型和更多的数据，能让模型性能更优。直至今日，这一规律依然行之有效。关注xAI、Meta以及OpenAI等国际AI企业近期的动向便不难发现，它们都在积极布局10万卡乃至更大规模的智算集群。可以说，在未来很长一段时间内，“十万规模” 的算力基建工作是大势所趋。

算力集群管理：十万卡规模下的复杂迷局

除了 “激增的故障率” 这一巨大阻碍外，10万卡规模的算力集群还面临着诸多棘手难题，其中集群管理的复杂性，便是另一座难以逾越的大山。

回顾2004年雅典奥运会，备受瞩目的美国男篮 “梦六队”，在赛场上遭遇了前所未有的滑铁卢，最终仅仅收获了一枚铜牌。这一结果瞬间引发了全世界的热烈讨论，甚至招来了不少嘲讽之声。事实上，“梦六队” 的大多数成员，个人实力都极为出众，可为何整体战斗力却如此疲软呢？深入探究后发现，罪魁祸首是临近赛期才匆忙重新组队，导致队员之间配合生疏，默契度几乎为零，教练对球员的战术安排和掌控力也大打折扣。

当算力集群踏入十万规模的领域，同样面临着类似的困境。如今，GPU厂商的产能存在严重限制，短期内根本无法为某一家AI企业提供十万级别的相同规格GPU。无奈之下，大家只能退而求其次，采用不同型号、甚至来自不同厂商的GPU，来组建算力集群，这便是所谓的 “多芯混训”。

与 “梦六队” 的困境如出一辙，面对不同厂商和型号的GPU，由于它们在技术标准、性能规格、通信协议等方面千差万别，如果只是毫无章法地胡乱组合在一起，那么整个集群所能发挥出的实际效果，必然会大打折扣，无法达到预期的强大算力。