专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
爱可可-爱生活  ·  【[772星]rmpc:一款终端音乐播放器客 ... ·  21 小时前  
爱可可-爱生活  ·  【[348星]tldx:快速查找可用域名的高 ... ·  昨天  
爱可可-爱生活  ·  【[10星]Path-Planning:一个 ... ·  昨天  
爱可可-爱生活  ·  【[143星]Servo ... ·  昨天  
51好读  ›  专栏  ›  人工智能学家

为大模型架起通往物理学的桥梁,科学家提出“AI热力学定律”,为模型训练动态提供全新洞见

人工智能学家  · 公众号  · AI  · 2025-05-18 16:49

正文

请到「今天看啥」查看全文



需要说明的是,river–valley loss landscape 是一个用于描述神经网络优化过程中损失函数拓扑结构的比喻性概念。


其中:


  • river 指的是低维的、平缓的优化路径,它的梯度较小但是方向稳定,对应着参数更新的高效通道。

  • valley 指的是被陡峭区域包围的平坦区域,对应着局部最小值。

  • loss Landscape 指的是神经网络参数空间中损失函数值的几何分布,反映了不同参数组合下的模型表现。


大型神经网络与热力学系统有着惊人的相似之处,两者都涉及大量的自由度,并表现出随机动力学特性。因此,此前人们已经探索了神经网络与热力学之间的联系。然而,这些研究主要集中在具有相对简单、易于理解 loss landscape 的经典机器学习模型上。


前不久,有一支研究团队揭示了大模型的复杂 loss landscape 特征,这种被称为 river-valley 的结构由两类方向构成:平坦缓慢的 river 方向与陡峭快速的 valley 方向。直观来讲,快速动态会在 valley 内快速达到平衡态,而慢速动态则沿会 river 方向逐渐演化,并会受到快速动态的精细调节。


这种快慢分离的机制使得人们能够独立处理 valley 方向与 river 方向的动力学,从而得到可解析求解的结果。具体来说:快速动态呈现出热平衡与退火特性,而慢速动态则表现为漂移过程。


在定性层面以及在某些情况下的定量层面,这些解析解与经典热力学概念和定律存在相似性。


大模型的 loss landscape 呈现出典型的 river-valley 结构特征。而本次研究的目标是通过神经热力学定律的理论框架,将上述直观认识形式化。因此,本次成果与大模型训练有着直接相关性。


研究人员在论文中写道,这种优化理论与热力学之间的二元性,为理解和评估现代优化器提供了全新的理论视角。(需要说明的是,现代优化器是一种专门为神经网络训练设计的高级梯度下降算法,旨在通过最小化损失函数来提升模型的性能,是训练复杂 AI 模型的关键技术。)


于理论层面,在 river–valley loss landscape 的假设之下,该团队证明关键热力学量以及经典热力学原理,会从大模型的训练动态中自然涌现。


于实践层面,这一研究为设计学习率调度策略提供了直观的指导原则。(需要说明的是,学习率调度策略是深度学习训练的核心调参技巧之一,其本质是通过动态调整更新步长,在快速搜索解空间与精细调整最优解之间取得平衡。)


大模型训练动态与热力学之间的二元性,不仅在概念和理论上具有深刻意义,更为学习率调度等实践设计提供了实质性的指导。


在大模型预训练中,一种常用的学习率调度策略是预热-稳定-衰减(WSD,warmup-stable-decay)。根据以往文献可知:稳定阶段对应于沿 river 方向的运动,并伴随着 valley 方向的波动;而衰减阶段则会抑制 valley 方向的变化。


正是在此启发之下,该团队引入了基于 river–valley loss landscape 的简化模型。这一模型不仅具有解析可解性,还能自然地诠释为热力学系统,并在实际大模型训练动态中展现出高度的实证一致性。


基于快速动态和慢速动态之间的时间尺度分离特性,研究团队将总损失函数 ℓ 分解为两个部分:快部分 ℓf 和慢部分 ℓs,从而为构建河谷景观的简化模型带来了启发。


在固定学习率的情况之下,快速动态会收敛到一个稳态分布,而这和热平衡状态是类似的。当学习率逐渐衰减时,分布状态会相应演化,这一过程类似于退火现象。此外,快速动态会对慢速动态施加一种有效的熵力作用,这与物理学中的熵力现象具有相似性。







请到「今天看啥」查看全文