正文
基于这些观察和实践,LaViDa 诞生了,其全称为 Large Vision-Language Diffusion Model with Masking,即「带掩码的大型视觉-语言扩散模型」。
该模型来自加利福尼亚大学洛杉矶分校、松下、Adobe 和 Salesforce,算得上是首批基于扩散的 VLM 之一。简单来说,为了使预训练的扩散模型能够感知视觉输入,LaViDa 的做法是使用一个视觉编码器将视觉特征整合进扩散主干网络 —— 类似于 LLaVA 使用视觉输入增强大型语言模型 (LLM) 的方式。训练方法上,他们采用了以扩散为目标的两阶段训练流程:先进行预训练,然后进行监督微调。
下面来详细看看 LaViDa 的具体方法和实验表现。
LaViDa 是如何构建的?
LaViDa 的模型架构与 LLaVa 等常见的自回归视觉-语言模型(VLM)类似。它由视觉编码器和扩散语言模型组成。这两部分通过一个 MLP 投射网络连接。其整体设计如图 2 所示。
视觉编码器
:给定输入图像 I 和文本提示词 P,首先将图像大小调整为 768²,并将其分成四个 384² 的不重叠视图,记为 I_{1:4}。另外,按照之前的相关研究,也将原始图像的大小调整为 384²,以获得第五个视图 I_5。
这五个视图分别由视觉编码器(SigLIP-400M)独立编码,每个视图产生 27² 个嵌入,记为 V_{1:5}。总的来算,每个图像会产生 3645 个嵌入。
为了减少序列长度以提高训练效率,该团队还会在每个视图上应用 2×2 平均池化,从而将嵌入减少到了每个视图 14² 个,即总共 980 个。
然后,这五个视图的嵌入会被展平并连接成一维序列,然后由投射网络处理,从而获得扩散语言模型的最终视觉上下文。此过程与自回归 LLM 的视觉编码过程相似,如图 2 底部所示。
扩散语言模型
:这里的扩散语言模型是一个多层 Transformer,其架构与 LLM 类似。唯一的主要区别是:它的注意力掩码是非因果式的,并且它使用的建模目标是如下扩散语言建模目标,而不是自回归模型使用的下一个 token 预测。
扩散语言模型的输入包括投射的视觉嵌入、提示词 P ,以及部分遮掩的响应 X_t 。最后一个 Transformer 块的输出会经过最终线性层,以获得无掩码的响应 X_0 的逐 token logit
。在其实验中,他们探索了 LLaDA-8B(默认)和 Dream-7B 作为扩散语言模型。该过程如图 2 的上半部分所示。
下图展示了 LaViDa 的更多技术细节,而有关其训练算法和推理算法的更详细描述请参阅原论文。
LaViDa 的实验表现如何?