专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
51好读  ›  专栏  ›  机器之心

Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

机器之心  · 公众号  · AI  · 2025-05-10 11:42

正文

请到「今天看啥」查看全文



(3)解耦理解生成表征,理解任务使用编码高层语义的 CLIP/SigLIP,生成任务使用 VQGAN,如 Janus、UniFluid 等。


2. 协调理解和生成的视觉表征


不同于 Janus 割裂理解和生成的视觉编码,Harmon 探索在统一的视觉表征上协调图像理解和生成。


(1)MAR 的启发


图一:Linear Probing 和特征图激活


MAR 作为一种基于图像掩码建模的生成范式,沿袭了表征学习 MAE 的 Encoder-Decoder 框架,Harmon 的作者们发现 MAR Encoder 在图像生成训练中,同时学会对视觉语义的建模。如图一所示,MAR 的 Linear Probing 结果远超 VQGAN、VAE,同时对视觉语义概念有更精确的响应。


(2)Harmon:理解生成共享 MAR Encoder


图二: Harmon 框架图


Harmon 框架如图所示,通过共享 MAR Encoder 同时促进理解和生成:


i)图像理解:MAR Encoder 处理完整图像,LLM 根据图像内容和用户指令输出文本







请到「今天看啥」查看全文