专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
常青藤爸爸  ·  我心理平衡了,原来不止我家娃这么爱挑剔啊~ ·  23 小时前  
科学家庭育儿  ·  步步生风!夏天有这一双鞋就够凉快了! ·  昨天  
新重庆-重庆日报  ·  新闻早点 | ... ·  昨天  
新重庆-重庆日报  ·  中央批准,马森述履新广东 ·  3 天前  
超级学爸  ·  印度化有多可怕,波音用坠机做出了回答 ·  3 天前  
51好读  ›  专栏  ›  我爱计算机视觉

ICLR2025 workshop | 浙大&阿里提出FILA:让多模态大模型看清高分辨率图像细节

我爱计算机视觉  · 公众号  ·  · 2025-05-31 12:12

正文

请到「今天看啥」查看全文


图块之间的空间关系和语义联系减弱。
  • 位置关系混淆: 模型难以判断一个被切割物体的不同部分之间的相对位置。
  • 图2:不同高分辨率处理方法的对比。从左上角的简单动态裁剪,到右下角 FILA 提出的深度融合方案。
    图2:不同高分辨率处理方法的对比。从左上角的简单动态裁剪,到右下角 FILA 提出的深度融合方案。

    FILA 的创新解法:混合编码器与深度融合

    面对“切块”带来的碎片化难题,FILA 提出了两大创新:

    1.混合编码器 (Hybrid Encoder)

    FILA 没有完全抛弃“切块”策略,而是在此基础上引入了一个“全局信息”。它的核心是一个 混合视觉编码器 ,巧妙地结合了两种架构的优势:

    • 低分辨率图块处理 (CLIP-ViT): 继续使用大家熟悉的 CLIP-ViT 来处理动态裁剪后的各个小图块,捕捉局部细节。
    • 高分辨率全局信息 (ConvNeXt): 引入另一个强大的视觉编码器 ConvNeXt,直接处理 整张 按比例放大到更高分辨率(例如 768x768)的图像。ConvNeXt 的卷积特性使其能有效捕捉全局空间信息和上下文。
    图3:FILA 的混合编码器结构图。左侧为处理高分辨率全局图像的 ConvNeXt 分支,右侧为处理低分辨率图块的 ViT 分支,中间通过 CVFM 模块进行多层深度融合。
    图3:FILA 的混合编码器结构图。左侧为处理高分辨率全局图像的 ConvNeXt 分支,右侧为处理低分辨率图块的 ViT 分支,中间通过 CVFM 模块进行多层深度融合。

    关键点: 这个设计意味着,当模型处理每一个小图块时,不再是“盲人摸象”,而是能同时“参考”由 ConvNeXt 提供的高分辨率全局信息。

    2.ConvNeXt-ViT 深度融合模块 (CVFM)

    光有全局信息还不够,如何有效地将这些信息融入到图块的处理过程中至关重要。FILA 设计了一个名为 CVFM 深度融合 模块。

    与一些只在最后几层进行简单特征拼接或 Cross-Attention 的方法不同(参考图2中 Mini-Gemini 和 Channel-wise Concat 的示意),FILA 的 CVFM 实现了 “深度” 融合:

    • 多层交互: 来自 ConvNeXt 不同阶段(代表不同层的全局特征)的高分辨率特征,会被注入到 CLIP-ViT 的 多个中间层 中。
    • 特征对齐与融合: CVFM 会将对应空间区域的 ConvNeXt 特征裁剪出来,调整尺寸后,与 ViT 在该层的图块特征进行 通道拼接 (Channel Concatenation) ,再通过一个小型 MLP 网络进行融合。
    • 稳定训练: 融合时使用了一个可学习的门控机制






    请到「今天看啥」查看全文