专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
爱可可-爱生活  ·  一位专业工程师分享了其使用 Cursor ... ·  15 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250602223628 ·  昨天  
爱可可-爱生活  ·  【[838星]Awesome ... ·  昨天  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与~-20250 ... ·  昨天  
爱可可-爱生活  ·  【[1.1k星]BirdNET-Analyz ... ·  昨天  
51好读  ›  专栏  ›  机器之心

舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA

机器之心  · 公众号  · AI  · 2025-05-27 11:23

主要观点总结

本文介绍由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成的工作。该团队将LLaDA模型拓展至多模态领域,推出了LLaDA-V——集视觉指令微调的纯扩散多模态大语言模型(MLLM)。这是基于团队先前发布的LLaDA模型,其性能能够比肩LLaMA 3的8B扩散大语言模型。该工作标志着对当前以自回归为主流的多模态方法的重要突破,展示了扩散模型在多模态理解领域的巨大潜力。

关键观点总结

关键观点1: 团队成功推出LLaDA-V模型

这是基于团队先前的LLaDA模型拓展而来的多模态大语言模型,展示了扩散模型在多模态理解领域的潜力。

关键观点2: LLaDA-V模型的性能亮点

该模型具有卓越的数据可扩展性,并在多项基准测试中表现出优异的性能。它与使用LLaMA3-8B作为语言基座的自回归基线LLaMA3-V进行了对比,显示出更强的数据可扩展性。此外,它在多模态理解任务上达到了当前最佳(SOTA)性能。

关键观点3: LLaDA-V的核心方法

LLaDA-V的核心在于将视觉指令微调框架与LLaDA的掩码扩散机制相结合。它采用经典的“视觉编码器 + MLP 投影器 + 语言模型”架构,并采用双向注意力机制,允许模型在预测时全面理解对话上下文。

关键观点4: LLaDA-V的应用前景

这项工作不仅为MLLM的发展开辟了一条新的技术路径,也挑战了多模态智能必须依赖自回归模型的传统观念。随着语言扩散模型的不断发展,基于扩散的MLLM将在未来扮演更重要的角色,推动多模态AI的边界。


正文

请到「今天看啥」查看全文



  • 论文标题: LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning

  • 论文链接:https://arxiv.org/abs/2505.16933

  • 项目地址:https://ml-gsai.github.io/LLaDA-V-demo/

  • 代码仓库:https://github.com/ML-GSAI/LLaDA-V


团队预计近期开源训练推理代码以及 LLaDA-V 权重。


性能亮点

数据可扩展性强,多项基准表现优异


大规模的实验评估揭示了 LLaDA-V 的多个引人注目的特性:


1. 卓越的数据可扩展性与竞争力 。团队将 LLaDA-V 与使用 LLaMA3-8B 作为语言基座、但其他部分完全相同的自回归基线 LLaMA3-V 进行了对比。


结果显示, LLaDA-V 展现出更强的数据可扩展性 ,特别是在多学科知识(如 MMMU)基准上。令人印象深刻的是,尽管 LLaDA-8B 在纯文本任务上略逊于 LLaMA3-8B,但 LLaDA-V 在 11 个 多模态任务中超越了 LLaMA3-V。这表明扩散架构在多模态任务上面具备一定的优势。








请到「今天看啥」查看全文