主要观点总结
本文介绍由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成的工作。该团队将LLaDA模型拓展至多模态领域,推出了LLaDA-V——集视觉指令微调的纯扩散多模态大语言模型(MLLM)。这是基于团队先前发布的LLaDA模型,其性能能够比肩LLaMA 3的8B扩散大语言模型。该工作标志着对当前以自回归为主流的多模态方法的重要突破,展示了扩散模型在多模态理解领域的巨大潜力。
关键观点总结
关键观点1: 团队成功推出LLaDA-V模型
这是基于团队先前的LLaDA模型拓展而来的多模态大语言模型,展示了扩散模型在多模态理解领域的潜力。
关键观点2: LLaDA-V模型的性能亮点
该模型具有卓越的数据可扩展性,并在多项基准测试中表现出优异的性能。它与使用LLaMA3-8B作为语言基座的自回归基线LLaMA3-V进行了对比,显示出更强的数据可扩展性。此外,它在多模态理解任务上达到了当前最佳(SOTA)性能。
关键观点3: LLaDA-V的核心方法
LLaDA-V的核心在于将视觉指令微调框架与LLaDA的掩码扩散机制相结合。它采用经典的“视觉编码器 + MLP 投影器 + 语言模型”架构,并采用双向注意力机制,允许模型在预测时全面理解对话上下文。
关键观点4: LLaDA-V的应用前景
这项工作不仅为MLLM的发展开辟了一条新的技术路径,也挑战了多模态智能必须依赖自回归模型的传统观念。随着语言扩散模型的不断发展,基于扩散的MLLM将在未来扮演更重要的角色,推动多模态AI的边界。
正文
-
论文标题:
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
-
论文链接:https://arxiv.org/abs/2505.16933
-
项目地址:https://ml-gsai.github.io/LLaDA-V-demo/
-
代码仓库:https://github.com/ML-GSAI/LLaDA-V
团队预计近期开源训练推理代码以及 LLaDA-V 权重。
性能亮点
数据可扩展性强,多项基准表现优异
大规模的实验评估揭示了 LLaDA-V 的多个引人注目的特性:
1. 卓越的数据可扩展性与竞争力
。团队将 LLaDA-V 与使用 LLaMA3-8B 作为语言基座、但其他部分完全相同的自回归基线 LLaMA3-V 进行了对比。
结果显示,
LLaDA-V 展现出更强的数据可扩展性
,特别是在多学科知识(如 MMMU)基准上。令人印象深刻的是,尽管 LLaDA-8B 在纯文本任务上略逊于 LLaMA3-8B,但 LLaDA-V 在 11 个 多模态任务中超越了 LLaMA3-V。这表明扩散架构在多模态任务上面具备一定的优势。