正文
图块之间的空间关系和语义联系减弱。
位置关系混淆:
模型难以判断一个被切割物体的不同部分之间的相对位置。
图2:不同高分辨率处理方法的对比。从左上角的简单动态裁剪,到右下角 FILA 提出的深度融合方案。
FILA 的创新解法:混合编码器与深度融合
面对“切块”带来的碎片化难题,FILA 提出了两大创新:
1.混合编码器 (Hybrid Encoder)
FILA 没有完全抛弃“切块”策略,而是在此基础上引入了一个“全局信息”。它的核心是一个
混合视觉编码器
,巧妙地结合了两种架构的优势:
-
低分辨率图块处理 (CLIP-ViT):
继续使用大家熟悉的 CLIP-ViT 来处理动态裁剪后的各个小图块,捕捉局部细节。
-
高分辨率全局信息 (ConvNeXt):
引入另一个强大的视觉编码器 ConvNeXt,直接处理 整张 按比例放大到更高分辨率(例如 768x768)的图像。ConvNeXt 的卷积特性使其能有效捕捉全局空间信息和上下文。
图3:FILA 的混合编码器结构图。左侧为处理高分辨率全局图像的 ConvNeXt 分支,右侧为处理低分辨率图块的 ViT 分支,中间通过 CVFM 模块进行多层深度融合。
关键点:
这个设计意味着,当模型处理每一个小图块时,不再是“盲人摸象”,而是能同时“参考”由 ConvNeXt 提供的高分辨率全局信息。
2.ConvNeXt-ViT 深度融合模块 (CVFM)
光有全局信息还不够,如何有效地将这些信息融入到图块的处理过程中至关重要。FILA 设计了一个名为
CVFM
的
深度融合
模块。
与一些只在最后几层进行简单特征拼接或 Cross-Attention 的方法不同(参考图2中 Mini-Gemini 和 Channel-wise Concat 的示意),FILA 的 CVFM 实现了
“深度”
融合:
-
多层交互:
来自 ConvNeXt 不同阶段(代表不同层的全局特征)的高分辨率特征,会被注入到 CLIP-ViT 的
多个中间层
中。
-
特征对齐与融合:
CVFM 会将对应空间区域的 ConvNeXt 特征裁剪出来,调整尺寸后,与 ViT 在该层的图块特征进行
通道拼接 (Channel Concatenation)
,再通过一个小型 MLP 网络进行融合。
-