专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
Python初级入门到精通  ·  权谋剧里一片天,谁见藏海不递烟 ·  2 天前  
51好读  ›  专栏  ›  我爱计算机视觉

TPAMI 2025 | 更快、更灵活的 Transformer图像复原网络

我爱计算机视觉  · 公众号  ·  · 2025-05-07 11:47

正文

请到「今天看啥」查看全文


  1. 多尺度的感受野
  2. 多级语义信息
  3. 灵活的感受野形状。

具体来说,通过设计多个并行的具有不同尺度卷积核的可变形卷积(DCN),我们使Patch Embedding能够生成粗糙和精细的视觉标记,以及具备灵活的表达能力,如下图所示。受到堆叠多层3 * 3卷积可获得更大感受野的启发,我们堆叠了几个小卷积核的DCN以获得更丰富的采样点。这不仅增加了网络的深度以提供多级语义信息,还有助于减少参数和计算负担。此外,我们还对DCN加入两个小的改动:

  1. 通过对offset截断使得Token更关注局部。
  2. 与深度可分离卷积的策略类似,我们提出了深度可分离和可变形卷积(DSDCN),它将 DCN的各部分分解成Depthwis卷积与Pointwise卷积。

Taylor Expanded Multi-head Self-Attention

对于原始的Transformer的Self-attention表达式,如下所示:

我们可以更一般的写成:

其中,当时,上式退化为Softmax-attention。现在对进行泰勒展开,得到:

忽略一阶泰勒展开的余项,并进一步利用矩阵乘法结合律,得到具有线性计算复杂度的Self-attention计算公式:

然而,忽略Softmax-attention的泰勒展开式中的高阶项通常会牺牲注意力图的非线性特性,降低模型对图像中某些重要区域的注意力能力。在下一节中,我们将介绍如何预测Softmax-attention的剩余部分,确保T-MSA++的注意力图在保持线性计算复杂度的同时保留非线性特性。

Focused Taylor Expansion Remainder

从此前的分析中,可以得出结论,余数具有两个性质:1)非负性;2)提供了一个非线性的缩放,以提供更集中的注意力。因此,我们通过引入保范映射近似高阶余项,增强注意力聚焦:

结合一阶项与余项,并引入可学习的调制因子_s_(初始化为 0.5),导出以下公式:







请到「今天看啥」查看全文