专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  【[348星]tldx:快速查找可用域名的高 ... ·  14 小时前  
爱可可-爱生活  ·  【[31星]Chatterbox-TTS-S ... ·  13 小时前  
新机器视觉  ·  光学系统常用光学参数的测量 ·  13 小时前  
爱可可-爱生活  ·  早! #早安# -20250602053641 ·  昨天  
Dance with GenAI  ·  AI数据中心的光子集成芯片(PICs)发展路线图 ·  昨天  
51好读  ›  专栏  ›  AI科技评论

任何方向都高度准确,上交、旷视联合提出最强旋转目标检测器R3Det

AI科技评论  · 公众号  · AI  · 2020-02-21 14:56

正文

请到「今天看啥」查看全文


论文发现旋转锚框(Anchors)可以在目标密集场景发挥更好的效果,而水平锚框可以以更少的数量实现更高的召回率 。因此,在本文精炼的单级检测器中使用两种形式的锚框进行组合,即在第一阶段使用水平锚框以提高速度和产生更多候选框。然后在精炼阶段去使用旋转锚框以适应目标密集场景。

第二, 论文还指出现有的精炼单级检测器存在特征未对齐的问题,极大的限制了分类和精炼阶段回归的可靠性 。本文设计了一个特征精炼模块(FRM),该模块使用特征插值来获取精炼Anchor的位置信息并重建特征图实现特征对齐。FRM还可以在第一阶段之后减少精炼边界框的数量,从而加速模型。

将这三种技术结合在一起,本文的方法可以在三个公开旋转目标检测数据集(包括DOTA,HRSC2016和ICDRA2015)上实现SOTA性能。

相关工作


双阶段目标检测器和单阶段目标检测器就不细说了,应该都非常熟悉了。这里主要说一下旋转目标检测和精炼目标检测器这两方面的相关工作。
旋转目标检测器

遥感和文本检测是旋转目标检测器的主要应用场景。由于遥感影像场景的复杂性以及拥有大量小的,杂乱和旋转的目标,双阶段旋转目标检测器仍然是最鲁棒的选择,例如ICN,ROI-Transformer和SCRDet。但是它们使用了相对复杂的结构导致速度较慢。对于文本检测,有许多有效的旋转目标检测方法,包括双阶段的方法(R2CNN,RRPN,FOTS)和单阶段的方法(EAST,TextBoxes)。
精炼目标检测器

为了获得更好的定位精度,许多级联或者精炼目标检测器被提出。Cascade RCNN,HTC和FSCascade在第二阶段执行了多次分类和回归,极大的提高了分类的准确性和定位精度。

同样的想法也适用于单级检测器,例如RefineDet。和双阶段检测器不同,后者使用ROI Pooling或ROI Aligin进行特征对齐。

在特征对齐方面,当前的精炼目标检测器不能很好的解决这个问题。精炼单阶段目标检测器的一个关键要求是保持一个全卷积网络结构,这可以获得速度优势,但是诸如ROIAlign之类的方法无法满足要求,因此不得不引入全连接层。

尽管一些工作使用可变形卷积进行特征对齐,但其偏移参数通常是通过学习预定义Anchor和精炼Anchor之间的偏移量来获得的。这些基于可变性卷积的特征对齐方法的一个目的是扩大感受野,这个感受野往往是不明显并且不能确保特征真正对齐。

特征对齐仍然限制着精炼单级目标检测器的性能。与这些方法相比,本文的方法通过计算可以清楚的找到对应的特征区域,并通过特征图重建达到特征对齐的目的。

方法


下面的Figure2展示了论文提出的方法。


此方法是一个基于RetinaNet的单级旋转目标检测器,命名为R3Det。

将精炼阶段(可以多次添加和重复)添加到网络以精炼边界框,并在精炼阶段添加特征精炼模块(FRM)以重建特征图。

在单阶段旋转目标检测任务中,对预测边界框进行连续的精炼可以提高回归精度,因此特征精炼是必要的。应该注意的是,FRM也可以在其他单级检测器如SSD中使用。

1、带旋转目标检测功能的RetinaNet


RetinaNet是目前最先进的单级目标检测器之一。它主要由两部分组成:主干网络,分类和回归子网络。RetinaNet采用特征金字塔网络(FPN)作骨干网络。






请到「今天看啥」查看全文