专栏名称: 智东西
智东西-聚焦智能变革,服务产业升级!作为智能行业新锐媒体,智东西专注五大领域:VR/AR;AI/机器人/无人机;智能汽车/智能出行;智能家居/物联网;智能穿戴/智能医疗,通过内容、活动、报告以及社群等方式助力“智能+”时代的创业和产业升级。
目录
相关文章推荐
新浪科技  ·  家电又有新科技?卧室也能被AI环绕?6月5日 ... ·  13 小时前  
新浪科技  ·  【#迅雷5亿元收购虎扑#】近日,迅雷宣布已完 ... ·  15 小时前  
新浪科技  ·  【#雷军回应YU7能否复刻SU7成功#:#雷 ... ·  昨天  
51好读  ›  专栏  ›  智东西

OpenAI揭秘GPT-4.5训练:10万块GPU,几乎全员上阵,出现“灾难性问题”

智东西  · 公众号  · 科技媒体  · 2025-04-13 14:18

正文

请到「今天看啥」查看全文


仅需5-10人即可完成


Sam Altman:集群在从1万卡拓展到10万卡的时候,为什么遇到了这么多问题?
Amin Tootoonchian: 我认为,如果系统开发者足够敏锐,大部分问题是能在小规模阶段就观察出来的。
还有些问题并不是大规模训练阶段独有的,而是 原本就经常出现,但规模提升后就会变成灾难性问题 ,特别是当团队并未提前预料到这些问题会恶化到如此程度。
Sam Altman:有哪些事情造成了灾难性的后果?
Amin Tootoonchian: 我认为基础设施的问题是众所周知的,无论是故障率、故障类型还是故障总量都很高。10万卡集群是一个大规模的样本池,因此我们也发现了算力供应商都没有观察到的问题。
网络是其中一环,单个加速器也会出问题。不过这也是这种系统的美妙之处——几乎所有组件都需要按预期工作,才能产生预期结果。我们的工作就是要尽量减少这种问题。
Sam Altman:在集群规模的极限上开展工作的确很困难,但我也注意到,做那些不再是技术前沿的事情变得容易多了,训练GPT-4.5需要数百人,OpenAI几乎全员上阵。
但今天如果让你们从OpenAI中挑选出一个最小的团队,用我们所知道的一切知识和所有的系统工作从头开始重新训练GPT-4,需要多少人?
Alex Paino: 我认为现在要做出GPT-4级别的模型,可能需要5到10人左右。在完成GPT-4.5的过程中,技术栈已经有了很大改进。
其实,在我们在训练GPT-4.5的过程中已经做了类似的事情——我们训练了GPT-4o,这是一个GPT-4级别的模型,使用了很多来自GPT-4.5研究项目的相同内容重新训练。进行那次训练所用的人要少得多。

03 .
数据效率是大模型突破关键,
新一代硬件带来诸多挑战


Sam Altman:从你的角度来看呢,Dan?为什么训练大模型很难?
Daniel Selsam: 我认为做任何新事物都很难。我认为即使只是发现别人做了某事,它也会变得容易得多,因为最难的部分是一开始就有做某事的信念。 我觉得仅仅是知道某事是可行的,就是一个超强的作弊码,让事情变得容易许多。
Alex Paino: 我们正在将GPT预训练运行扩展到之前的10倍,总是会发现一些有趣的新东西,这些东西你不一定能预料到。
Sam Altman:在预训练规模上实现下一个10倍或100倍的增长需要什么?
Daniel Selsam: 数据效率。Transformer架构(也就是GPT)在利用数据方面非常高效,它能很好地吸收和压缩信息,并实现泛化。它最大的特点就是能用计算资源高效地吸收信息。
但是,它从数据中获得洞察力的深度是有限的。当计算能力快速增长,而数据增长相对缓慢时,数据就会成为这种标准模式的瓶颈。这就需要算法创新, 开发出能够利用更多算力从同样数量的数据中学到更多知识的方法。
Sam Altman:你们认为除此之外我们还需要什么来保持扩展?
Amin Tootoonchian: 我的答案是关于系统的。我认为GPT-4.5所需的巨大工作量,本质上是模型规格带来的必然结果。我们无法用与GPT-4完全相同的技术架构来训练GPT-4.5。
在状态管理方面,由于所需计算资源已超出单集群承载能力,我们不得不转向多集群训练架构。为了实现这一目标,我们必须在短时间内整合多个不同的工作流。
虽然这确实帮助我们取得了阶段性突破, 但要实现下一个数量级的性能提升,仍需解决若干已知但被暂时搁置的技术难题 ——这些问题是无法回避的。正是这类技术权衡不断延长着完美系统的研发周期,我们始终在追求最优实施方案的过程中做出策略性取舍。
需要明确的是,系统本身并非终极目标,其实际产出价值才是核心考量。就下一个10倍性能提升而言,我认为容错能力的突破至关重要。我们需要构建与工作负载深度协同的容错机制,以显著降低运维焦虑。当前超大规模系统的运维复杂度,与既往系统存在本质差异。
Sam Altman:你知道在GPT-4.5训练中,由于某些组件导致失败的比例是多少吗?
Amin Tootoonchian: 我没有具体数字可供分享,但一般而言,在新一代硬件部署初期,系统运行往往面临诸多未被充分认知的技术挑战。我们选择在问题尚未完全明确的情况下推进项目,这导致初期运行失败率居高不下。
但经验表明,随着根本原因的识别和解决,故障率会显著降低。这一现象本质上反映了我们对基础设施认知的深化过程——有些人称之为基础设施的清理或理解基础设施的基本问题。
执行的早期阶段几乎总是相当痛苦 ,我们在推进项目的同时,也在持续发现和解决新型故障模式,但最终失败率会逐渐下降,正常运行的时间变多。
这本质上是个优先级权衡的问题:在基础设施生命周期的早期阶段,其故障风险往往难以准确预估;而如果过度追求终极理想状态(原文为“City Estate”,理想城邦式设计),反而可能导致系统在初期阶段的可用性表现极差。

04 .
计算资源不再是主要瓶颈,
算法尚未触及理论上限






请到「今天看啥」查看全文