专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

CVPR25 | CV 微调卷出天际，Mona：我小，我强，我省资源

我爱计算机视觉 · 公众号 · · 2025-04-25 20:40

正文

请到「今天看啥」查看全文

论文亮点

随着现代深度学习的发展，训练数据和模型规模的增加成为模型性能的重要增长点，但随之而来的是模型的垂直应用和微调成本和难度的提升。传统全量微调需要更新模型所有参数（如GPT-3的1750亿参数），计算成本极高。即使以早期的BERT为例，单卡训练100万数据也需5-7小时，对硬件资源和时间的要求限制了研究复现和实际应用。同时，随着模型参数从亿级迈向万亿级，直接微调不仅成本高昂，还可能因过拟合导致性能下降。此外，多任务场景下需为每个任务保存完整模型副本，存储成本剧增加。

参数高效微调（Parameter Efficient Fine-Tuning，PEFT）通过保持预训练模型参数冻结，仅调整少量参数就可实现大模型在垂直应用领域的高效适配。但目前大多数 PEFT 方法，尤其是视觉领域的 PEFT 方法的性能相较于全量微调而言还存在劣势。Mona 通过更适合视觉信号处理的设计以及对预训练特征分布的动态优化在小于 5% 的参数成本下首次突破了全量微调的性能枷锁，为视觉微调提供了新的解决方案。

本文的核心在于强调：

PEFT对于视觉模型性能上限的提升（尤其是参数量较大的模型）；
视觉模型在全微调（尤其是少样本情况）会存在严重的过拟合问题；
1 LVM+n Adapter模式在实际业务中潜在的性能和效率优势。

对于具体业务来说，有些用到LVM或者多模态大模型（如OCR等任务）的任务会对视觉编码器部分进行固定或仅微调linear层来适应下游数据。Mona的存在理论上可以进一步提升LVM、多模态大模型对视觉特征的理解和重构，尤其是对于一些少样本post-training问题。

方法

Mona 包含降维、多认知视觉滤波器、激活函数和升维等模块，并在适配器内部加入了跳跃连接（Skip-Connections），以增强模型的适应能力。这种结构设计使得 Mona 能够在保持高效的同时，显著提升视觉任务的性能。

多认知视觉滤波器

Mona 方法的核心在于引入了多认知视觉滤波器，这些滤波器通过深度可分离卷积（Depth-Wise Convolution）和多尺度卷积核（3×3、5×5、7×7）来增强适配器对视觉信号的处理能力。与传统的线性适配器不同，Mona 专门针对视觉任务设计，能够更好地处理二维视觉特征，通过多尺度特征融合提升模型对视觉信息的理解能力。