正文
或许有人会问,真有必要将算力集群规模扩大到 “十万级别” 吗?答案是肯定的。自大模型技术问世以来,【Scaling Law】作为第一性原理已被广泛认可。简而言之,就是用更大的算力去训练更大的模型和更多的数据,能让模型性能更优。直至今日,这一规律依然行之有效。关注xAI、Meta以及OpenAI等 国际AI企业近期的动向便不难发现,它们都在积极布局10万卡乃至更大规模的智算集群。可以说,在未来很长一段时间内,“十万规模” 的算力基建工作是大势所趋。
除了 “激增的故障率” 这一巨大阻碍外,10万卡规模的算力集群还面临着诸多棘手难题,其中集群管理的复杂性,便是另一座难以逾越的大山。
回顾2004年雅典奥运会,备受瞩目的美国男篮 “梦六队”,在赛场上遭遇了前所未有的滑铁卢,最终仅仅收获了一枚铜牌。这一结果瞬间引发了全世界的热烈讨论,甚至招来了不少嘲讽之声。事实上,“梦六队” 的大多数成员,个人实力都极为出众,可为何整体战斗力却如此疲软呢?深入探究后发现,罪魁祸首是临近赛期才匆忙重新组队,导致队员之间配合生疏,默契度几乎为零,教练对球员的战术安排和掌控力也大打折扣。
当算力集群踏入十万规模的领域,同样面临着类似的困境。如今,GPU厂商的产能存在严重限制,短期内根本无法为某一家AI企业提供十万级别的相同规格GPU。无奈之下,大家只能退而求其次,采用不同型号、甚至来自不同厂商的GPU,来组建算力集群,这便是所谓的 “多芯混训”。
与 “梦六队” 的困境如出一辙,面对不同厂商和型号的GPU,由于它们在技术标准、性能规格、通信协议等方面千差万别,如果只是毫无章法地胡乱组合在一起,那么整个集群所能发挥出的实际效果,必然会大打折扣,无法达到预期的强大算力。