专栏名称: 机器学习算法与自然语言处理
一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
目录
相关文章推荐
云南广播电视台  ·  记得提早出门!中考期间云南这些地方将有暴雨、大暴雨 ·  20 小时前  
云南广播电视台  ·  云南两地发布人事任免职通知 ·  21 小时前  
云南广播电视台  ·  雨雨雨!云南新一轮降水天气即将抵达! ·  2 天前  
918云南交通台  ·  又来!新一轮降水天气即将“到货” 云南...... ·  2 天前  
春城晚报  ·  昆明惊现LABUBU彩绘飞机!如何乘坐→ ·  3 天前  
51好读  ›  专栏  ›  机器学习算法与自然语言处理

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

机器学习算法与自然语言处理  · 公众号  ·  · 2025-05-31 09:11

正文

请到「今天看啥」查看全文


基于这些观察和实践,LaViDa 诞生了,其全称为 Large Vision-Language Diffusion Model with Masking,即「带掩码的大型视觉-语言扩散模型」。

图片
  • 论文标题:LaViDa: A Large Diffusion Language Model for Multimodal Understanding

  • 论文地址:https://arxiv.org/pdf/2505.16839

该模型来自加利福尼亚大学洛杉矶分校、松下、Adobe 和 Salesforce,算得上是首批基于扩散的 VLM 之一。简单来说,为了使预训练的扩散模型能够感知视觉输入,LaViDa 的做法是使用一个视觉编码器将视觉特征整合进扩散主干网络 —— 类似于 LLaVA 使用视觉输入增强大型语言模型 (LLM) 的方式。训练方法上,他们采用了以扩散为目标的两阶段训练流程:先进行预训练,然后进行监督微调。

下面来详细看看 LaViDa 的具体方法和实验表现。

LaViDa 是如何构建的?

LaViDa 的模型架构与 LLaVa 等常见的自回归视觉-语言模型(VLM)类似。它由视觉编码器和扩散语言模型组成。这两部分通过一个 MLP 投射网络连接。其整体设计如图 2 所示。

图片

视觉编码器 :给定输入图像 I 和文本提示词 P,首先将图像大小调整为 768²,并将其分成四个 384² 的不重叠视图,记为 I_{1:4}。另外,按照之前的相关研究,也将原始图像的大小调整为 384²,以获得第五个视图 I_5。

这五个视图分别由视觉编码器(SigLIP-400M)独立编码,每个视图产生 27² 个嵌入,记为 V_{1:5}。总的来算,每个图像会产生 3645 个嵌入。

为了减少序列长度以提高训练效率,该团队还会在每个视图上应用 2×2 平均池化,从而将嵌入减少到了每个视图 14² 个,即总共 980 个。

然后,这五个视图的嵌入会被展平并连接成一维序列,然后由投射网络处理,从而获得扩散语言模型的最终视觉上下文。此过程与自回归 LLM 的视觉编码过程相似,如图 2 底部所示。

扩散语言模型 :这里的扩散语言模型是一个多层 Transformer,其架构与 LLM 类似。唯一的主要区别是:它的注意力掩码是非因果式的,并且它使用的建模目标是如下扩散语言建模目标,而不是自回归模型使用的下一个 token 预测。

图片

扩散语言模型的输入包括投射的视觉嵌入、提示词 P ,以及部分遮掩的响应 X_t 。最后一个 Transformer 块的输出会经过最终线性层,以获得无掩码的响应 X_0 的逐 token logit 图片 。在其实验中,他们探索了 LLaDA-8B(默认)和 Dream-7B 作为扩散语言模型。该过程如图 2 的上半部分所示。

下图展示了 LaViDa 的更多技术细节,而有关其训练算法和推理算法的更详细描述请参阅原论文。

图片

LaViDa 的实验表现如何?







请到「今天看啥」查看全文