专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

为大模型架起通往物理学的桥梁，科学家提出“AI热力学定律”，为模型训练动态提供全新洞见

DeepTech深科技 · 公众号 · 科技媒体 · 2025-05-17 20:35

主要观点总结

北京大学本科校友、美国麻省理工学院刘子鸣博士和其团队提出了神经热力学定律（NTL），该定律为大模型训练动态提供了全新的洞见。研究团队对快慢动力学进行了分解，打造了一个可被精确求解的river–valley loss landscape简化模型，并证明了该模型与大模型的实证关联性。此外，该研究揭示了神经网络训练与热力学的二重性，为深入理解深度学习提供了科学基础，并指出学习率在大模型训练中的重要作用。

关键观点总结

关键观点1: 神经热力学定律的提出

刘子鸣博士和其团队提出了神经热力学定律，这一理论框架是在大模型训练中自然涌现的热力学概念和定律。

关键观点2: river–valley loss landscape的研究

研究团队进行了快慢动力学的分解，打造了一个可被精确求解的river–valley loss landscape简化模型，该模型能够同时捕捉快速动力和流动动力。

关键观点3: 神经网络训练与热力学的关联性

神经网络训练与热力学的二重性为深入理解深度学习提供了科学基础，研究证明了来自简易模型的洞见能够推广至真实大模型的训练中。

关键观点4: 学习率在大模型训练中的作用

研究团队强调了学习率在控制大模型训练动态中的核心作用，包括控制温度、熵力和时间尺度。

关键观点5: 未来研究计划

该团队计划基于本次获得的科学见解设计算法，以提高大模型训练的效率。

正文

请到「今天看啥」查看全文

就研究过程来说，如前所述该团队在本次研究中提出了一款 river–valley loss landscape 简化模型。与此同时，他们还分析了在随机梯度下降（SGD，Stochastic Gradient Descent）和符号梯度下降（SignGD，Sign Gradient Descent）下的训练动态。

需要说明的是，river–valley loss landscape 是一个用于描述神经网络优化过程中损失函数拓扑结构的比喻性概念。

其中：

river 指的是低维的、平缓的优化路径，它的梯度较小但是方向稳定，对应着参数更新的高效通道。
valley 指的是被陡峭区域包围的平坦区域，对应着局部最小值。
loss Landscape 指的是神经网络参数空间中损失函数值的几何分布，反映了不同参数组合下的模型表现。

大型神经网络与热力学系统有着惊人的相似之处，两者都涉及大量的自由度，并表现出随机动力学特性。因此，此前人们已经探索了神经网络与热力学之间的联系。然而，这些研究主要集中在具有相对简单、易于理解 loss landscape 的经典机器学习模型上。

前不久，有一支研究团队揭示了大模型的复杂 loss landscape 特征，这种被称为 river-valley 的结构由两类方向构成：平坦缓慢的 river 方向与陡峭快速的 valley 方向。直观来讲，快速动态会在 valley 内快速达到平衡态，而慢速动态则沿会 river 方向逐渐演化，并会受到快速动态的精细调节。

这种快慢分离的机制使得人们能够独立处理 valley 方向与 river 方向的动力学，从而得到可解析求解的结果。具体来说：快速动态呈现出热平衡与退火特性，而慢速动态则表现为漂移过程。

在定性层面以及在某些情况下的定量层面，这些解析解与经典热力学概念和定律存在相似性。

大模型的 loss landscape 呈现出典型的 river-valley 结构特征。而本次研究的目标是通过神经热力学定律的理论框架，将上述直观认识形式化。因此，本次成果与大模型训练有着直接相关性。

研究人员在论文中写道，这种优化理论与热力学之间的二元性，为理解和评估现代优化器提供了全新的理论视角。（需要说明的是，现代优化器是一种专门为神经网络训练设计的高级梯度下降算法，旨在通过最小化损失函数来提升模型的性能，是训练复杂 AI 模型的关键技术。）

于理论层面，在 river–valley loss landscape 的假设之下，该团队证明关键热力学量以及经典热力学原理，会从大模型的训练动态中自然涌现。

于实践层面，这一研究为设计学习率调度策略提供了直观的指导原则。（需要说明的是，学习率调度策略是深度学习训练的核心调参技巧之一，其本质是通过动态调整更新步长，在快速搜索解空间与精细调整最优解之间取得平衡。）

大模型训练动态与热力学之间的二元性，不仅在概念和理论上具有深刻意义，更为学习率调度等实践设计提供了实质性的指导。

在大模型预训练中，一种常用的学习率调度策略是预热-稳定-衰减（WSD，warmup-stable-decay）。根据以往文献可知：稳定阶段对应于沿 river 方向的运动，并伴随着 valley 方向的波动；而衰减阶段则会抑制 valley 方向的变化。

正是在此启发之下，该团队引入了基于 river–valley loss landscape 的简化模型。这一模型不仅具有解析可解性，还能自然地诠释为热力学系统，并在实际大模型训练动态中展现出高度的实证一致性。

基于快速动态和慢速动态之间的时间尺度分离特性，研究团队将总损失函数 ℓ 分解为两个部分：快部分 ℓf 和慢部分 ℓs，从而为构建河谷景观的简化模型带来了启发。

在固定学习率的情况之下，快速动态会收敛到一个稳态分布，而这和热平衡状态是类似的。当学习率逐渐衰减时，分布状态会相应演化，这一过程类似于退火现象。此外，快速动态会对慢速动态施加一种有效的熵力作用，这与物理学中的熵力现象具有相似性。

值得注意的是，学习率 η 在所有这些现象中都起着核心作用。通过阐明学习率复杂且有时相互矛盾的作用机制，研究团队提出了一套直观高效的学习率调度设计准则。