正文
通过充分利用SAM对分割任务的固有适应性(如图右下角所示),我们的方法不仅在理论上实现了"两全其美"——平衡视觉融合与任务性能,更确保了实际推理阶段的高效可行性,为多模态图像融合领域提供了新的技术范式。
解决的问题
传统方法的局限性:
传统基于信息理论的融合方法在图像质量优化上存在明显局限,特别是处理冗余信息和特定场景时表现不佳。而早期深度学习方法则常出现边缘模糊、伪影产生等问题,难以满足下游任务对高质量感知信息的严格要求。
优化目标的冲突:
更为棘手的是,当前将融合与下游任务耦合的方法导致优化目标相互冲突,在平衡视觉质量与任务适应性之间形成了难以逾越的鸿沟。研究者们不得不在两个关键目标间做出取舍,难以同时兼顾两者的优化。
SAM模型的计算负担:
虽然SAM模型在多模态图像融合领域展现出巨大潜力,但实际应用中完整SAM模型的高计算成本成为另一个严峻挑战。这种计算负担严重限制了基于SAM的融合方法在资源受限场景下的实际部署和应用,使其难以在移动设备或边缘计算环境中发挥作用。
提出的方法
融入SAM丰富语义先验:
将SAM的丰富语义先验知识融入多模态图像融合流程,深度挖掘场景语义信息,有效增强了系统对复杂场景的理解能力,从根本上提升了融合效果,使融合图像在视觉质量和下游任务适配性两方面都取得了显著进步。
SPA特征保留与整合机制:
SPA模块通过特殊的持久存储库(PR)机制精准保留源图像的关键特征信息,并利用高效的交叉注意力机制将这些特征与SAM提取的高级语义信息无缝整合,实现了不同模态信息的深度融合,为生成语义丰富、结构清晰的高质量融合图像提供了坚实基础。
双层优化驱动蒸馏机制:
提出的双层优化驱动蒸馏机制结合创新的三元组损失函数,在训练阶段将主网络中包含SAM语义知识的复杂表征有效转移到轻量级子网络,使得在实际推理时子网络能够独立运行而无需依赖计算密集型的SAM模型,大幅降低了计算复杂度,同时保持了卓越的融合性能,极大提高了模型在实际场景中的应用价值。
设计动机与整体架构
核心挑战:
我们旨在推理阶段利用SAM语义先验提升跨模态融合质量,但直接使用大规模SAM模型计算开销过大。虽然知识蒸馏可将SAM驱动的主网络信息转移到轻量级子网络,但主子网络间的能力差距常导致语义转移不完整或结构不一致,阻碍了理想融合性能的实现。
创新框架:
为解决这一问题,我们提出如图2所示的双层优化框架,包含SAM增强的主网络与轻量级子网络。在这个框架中,优化过程可通过公式1表示,明确了两个网络在优化过程中的相互关系与目标。通过精心设计的优化机制实现网络间协同进化,在保持高质量融合的同时显著降低推理成本。
技
术亮点:
采用类DARTS训练策略实现网络交替优化,结合损失函数(包含特征对齐、上下文一致性和对比语义),确保子网络高效获取主网络知识,最终消除对计算密集型SAM模型的依赖。
公式1.所提出的双层优化框架数学表达,通过嵌套优化目式1. 所提出的双层优化框架数学表达,通过嵌套优化目标实现主子网络协同学习。