何恺明改进了谢赛宁的REPA：极大简化但性能依旧强悍

机器之心 · 公众号 · AI · 2025-06-12 17:57

正文

请到「今天看啥」查看全文

论文标题：Diffuse and Disperse: Image Generation with Representation Regularization
论文链接：https://arxiv.org/abs/2506.09027v1

分散损失的核心思想其实很简单：除了模型输出的标准回归损失之外，再引入了一个用于正则化模型的内部表征的目标（图 1）。

直觉上看，分散损失会鼓励内部表征在隐藏空间中散开，类似于对比学习中的排斥效应。同时，原始的回归损失（去噪）则自然地充当了对齐机制，从而无需像对比学习那样手动定义正例对。

一言以蔽之：分散损失的行为类似于「没有正例对的对比损失」。

因此，与对比学习不同，它既不需要双视图采样、专门的数据增强，也不需要额外的编码器。训练流程完全可以遵循基于扩散的模型（及基于流的对应模型）中使用的标准做法，唯一的区别在于增加了一个开销可忽略不计的正则化损失。

与 REPA 机制相比，这种新方法无需预训练、无需额外的模型参数，也无需外部数据。凭借其独立且极简的设计，该方法清晰地证明：表征学习无需依赖外部信息源也可助益生成式建模。

带点数学的方法详解

分散损失

新方法的核心是通过鼓励生成模型的内部表征在隐藏空间中的分散来对其进行正则化。这里，将基于扩散的模型中的原始回归损失称为扩散损失（diffusion loss），将新引入的正则化项称为分散损失（Dispersive Loss）。

如果令 X = {x_i} 为有噪声图像 x_i 构成的一批数据，则该数据批次的目标函数为：

其中，L_Diff (x_i) 是一个样本的标准扩散损失，L_Disp (X) 则是依赖于整个批次的分散损失项，λ 是其加权项。

在实践中，该团队没有应用任何额外的层（如，投射头），而是直接将分散损失应用于中间表示，不增加额外的可学习参数。

该方法是自成一体且极简的。具体而言，它不会改变原始 L_Diff 项的实现：它不引入额外的采样视图，也不引入额外的数据增强，并且当 λ 为零时，它刚好就能约简为基线扩散模型。

这种设计之所以可行，是因为引入的分散损失 L_Disp (X) 仅依赖于同一输入批次中已经计算出的中间表示。这不同于标准对比学习 —— 在标准对比学习中，额外的增强和视图可能会干扰每个样本的回归目标。

前面也说过，分散损失的行为类似于「没有正例对的对比损失」。在生成模型的背景下，这个公式是合理的，因为回归项提供了预先定义的训练目标，从而无需使用「正例对」。这与先前关于自监督学习的研究《Understanding contrastive representation learning through alignment and uniformity on the hypersphere》一致，其中正例项被解释为对齐目标，而负例项则被解释为正则化的形式。通过消除对正例对的需求，损失项可以定义在任何标准批次的（独立）图像上。

从概念上讲，可以通过适当移除正例项，从任何现有的对比损失中推导出分散损失。就此而言，「分散损失」一词并非指特定的实现，而是指一类鼓励实现分散的通用目标。下文将介绍分散损失函数的几种变体。

基于 InfoNCE 的分散损失变体

在自监督学习中，InfoNCE 是被广泛使用且有效的对比损失变体。作为案例研究，该团队提出了与 InfoNCE 损失相对应的分散损失。