多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

机器学习算法与自然语言处理 · 公众号 · · 2025-05-31 09:11

正文

请到「今天看啥」查看全文

基于这些观察和实践，LaViDa 诞生了，其全称为 Large Vision-Language Diffusion Model with Masking，即「带掩码的大型视觉-语言扩散模型」。

论文标题：LaViDa: A Large Diffusion Language Model for Multimodal Understanding
论文地址：https://arxiv.org/pdf/2505.16839

该模型来自加利福尼亚大学洛杉矶分校、松下、Adobe 和 Salesforce，算得上是首批基于扩散的 VLM 之一。简单来说，为了使预训练的扩散模型能够感知视觉输入，LaViDa 的做法是使用一个视觉编码器将视觉特征整合进扩散主干网络 —— 类似于 LLaVA 使用视觉输入增强大型语言模型 (LLM) 的方式。训练方法上，他们采用了以扩散为目标的两阶段训练流程：先进行预训练，然后进行监督微调。

下面来详细看看 LaViDa 的具体方法和实验表现。

LaViDa 是如何构建的？

LaViDa 的模型架构与 LLaVa 等常见的自回归视觉-语言模型（VLM）类似。它由视觉编码器和扩散语言模型组成。这两部分通过一个 MLP 投射网络连接。其整体设计如图 2 所示。

视觉编码器：给定输入图像 I 和文本提示词 P，首先将图像大小调整为 768²，并将其分成四个 384² 的不重叠视图，记为 I_{1:4}。另外，按照之前的相关研究，也将原始图像的大小调整为 384²，以获得第五个视图 I_5。

这五个视图分别由视觉编码器（SigLIP-400M）独立编码，每个视图产生 27² 个嵌入，记为 V_{1:5}。总的来算，每个图像会产生 3645 个嵌入。

为了减少序列长度以提高训练效率，该团队还会在每个视图上应用 2×2 平均池化，从而将嵌入减少到了每个视图 14² 个，即总共 980 个。

然后，这五个视图的嵌入会被展平并连接成一维序列，然后由投射网络处理，从而获得扩散语言模型的最终视觉上下文。此过程与自回归 LLM 的视觉编码过程相似，如图 2 底部所示。

扩散语言模型：这里的扩散语言模型是一个多层 Transformer，其架构与 LLM 类似。唯一的主要区别是：它的注意力掩码是非因果式的，并且它使用的建模目标是如下扩散语言建模目标，而不是自回归模型使用的下一个 token 预测。

扩散语言模型的输入包括投射的视觉嵌入、提示词 P ，以及部分遮掩的响应 X_t 。最后一个 Transformer 块的输出会经过最终线性层，以获得无掩码的响应 X_0 的逐 token logit 。在其实验中，他们探索了 LLaDA-8B（默认）和 Dream-7B 作为扩散语言模型。该过程如图 2 的上半部分所示。

下图展示了 LaViDa 的更多技术细节，而有关其训练算法和推理算法的更详细描述请参阅原论文。

LaViDa 的实验表现如何？