专栏名称: CSDN
CSDN精彩内容每日推荐。我们关注IT产品研发背后的那些人、技术和故事。
目录
相关文章推荐
新浪科技  ·  【#罗巍建议荣耀400用户不贴镜头膜#】6月 ... ·  20 小时前  
新浪科技  ·  #追觅科技悬赏100万征集线索#【#追觅科技 ... ·  2 天前  
51好读  ›  专栏  ›  CSDN

在Google工作3.3年的研究科学家,开始创业从零试水训练大模型的1年:工作量翻倍,“坑”太多了!

CSDN  · 公众号  · 科技媒体  · 2024-03-07 18:17

正文

请到「今天看啥」查看全文


这篇博文对许多人来说既有趣又有教育意义。

LLM 时代的硬件采购就像买“彩票”,一切存在未知

训练模型的首要条件是获取计算资源。 这一点没有什么可质疑的,也相对容易。

然而,整个过程中存在的最大意外在于计算资源提供商的不稳定性,以及集群、加速器及其连接的质量在不同来源之间存在的巨大差异。

人们总是认为这只是事关选择加速器(TPUs 与 GPU)的问题或争论,而所有 GPU 集群都是平等的。对我们而言,这一观点很快就被证明是错误的。

在对不同的服务提供商取样时,我们发现即使对于相同的硬件,例如 GPU(H100s),硬件质量也存在巨大的差异。 请注意,这里的硬件指的是整体集群质量,而不一定是芯片或加速器本身,这感觉就像买“彩票”一样。基本上:

并非所有硬件都是相同的。不同硬件提供商带来的集群质量可能天差地别,因此在训练良好模型时要经历多少痛苦就像是在刮彩票一样,一切未可知。一句话概括,这是在 LLM 时代的硬件彩票。

更具体地说,我们从多家计算资源提供商那里租赁了一些集群,每个集群有数百到数千个芯片。我们看到的集群有的还能将就说得过去(一些可以通过较小的软件工程师解决的烦人问题),也有的完全无法使用,由于各种原因每隔几小时就会出故障。 详细来说,一些集群的节点每隔 N 小时就会出现故障,问题涉及到布线问题(其中 N 值非常小)、GPU 硬件错误等。

更令人惊讶的是,即使是同一提供商的每个集群在稳健性方面也可能大不相同。

与此同时,即使其他一些集群的节点可能更加稳定,它们也可能受到 I/O 和文件系统不佳的影响,甚至保存检查点都可能导致超时,或耗费大量时间来降低集群利用率。还有其他一些计算资源需要完全不同的软件层才能运行,这对于自带代码库的团队而言非常不友好,他们往往需要额外的迁移成本来运行实验或大型任务。

没有什么是完美的!但有些提供商的服务质量确实比其他的要糟糕得多。

最令人沮丧的部分是什么?几乎不可能提前知道,尤其是在什么都准备好的情况下,自己将会得到什么样的硬件,以及体验将会有多么健壮/容错,都不知道。

此外,你也无法判断供应商是否会按时交付,有时候他们还会 推迟几个月交付,让人在数周或数月内无法从其他渠道获取计算资源。甚至有些供应商还会意外删 除你的检查点。

再来看看,对于不同集群,你还会得到不同的模型算力利用率(Model FLOPs Utilization, MFU)吗?

当然,如果运气不好找到一个布线混乱或存在其他问题的供应商,这将是一笔不可忽视的计算资源浪费。当团队成员开始跨集群传输大量数据时,如果系统的文件系统非常不理想,训练运行的 MFU 会瞬间下降。

每个服务提供商还提供不同级别的支持。这些支持从礼貌到漫不经心,从“ChatGPT风格”的预设回复到将每一件出错的事情归咎于用户。

总的来说,我们尝试的每个集群都感觉有它们自己的氛围、斗争和失败模式。几乎每个集群似乎都需要对其自身的一系列问题进行修复。话虽如此,我们已经了解到,设置故障保护很重要,并且为任何集群找到快速修复的方法可能是关键。

在过去的几个月里,我们已经做了很多工作,只是为了确保事情能够使用,例如监控周围的工具、高效的检查点,以及各种其他优化,甚至包括安装我们的定制文件系统以实现可伸缩的数据存储——这只是实际所需的冰山一角。







请到「今天看啥」查看全文