干货 | CVPR精彩论文解读：对当下主流CNN物体检测器的对比评测

AI科技评论 · 公众号 · AI · 2017-08-09 10:44

正文

请到「今天看啥」查看全文

1.为什么要做检测器对比

近年来由于CNN的发展与应用，物体检测领域得到了快速发展，如Faster RCNN, R-FCN, Multibox, SSD, YOLO等算法已经成功应用于实际产品中，并在各种计算设备上展现出可观的性能。在实际应用中，由于不同的场景下有不同的限制和需求，需要根据实际情况权衡选择最适合的检测方法。这就需要我们对不同检测器的性能有更客观的认识。

然而，从这些算法的原始文章很难直接获得对不同算法在多个维度的对比。一方面，不同方法的原始论文在特征提取网络、框匹配方式、框的表示、回归的Loss函数选择等方面存在差异（如下表所示）。另一方面，我们缺乏客观的评价标准：Pascal VOC或者COCO数据集上标准的评价准则mAP只能反映精度，而比赛获胜的方法通常会采用多模型融合，如multi-crop和multi-scale等方法来牺牲时间提升精度。

我们需要系统客观地对不同算法在速度、精度、空间占用等多个维度进行评测，以用于指导选择在不同实际情景下所需要的最佳物体检测器。

2.如何对不同检测器做对比

本文对比了Faster RCNN, SSD和R-FCN三种方法，每种方法都基于TensorFlow的实现，对比单模型、单次前传的性能。每一种方法都首先在TensorFlow中复现了原论文的报告精度，然后在此基础上进行修改对比。具体地：特征提取器采用了VGG16, Resnet101, Inception V2, Inception V3, Inception Resnet V2, MobileNet等多个模型；Faster RCNN和R-FCN选用同样的feature map层来预测region proposal；SSD在最上层的feature map基础上加入多个2倍大小的额外层做预测；Faster RCNN和R-FCN的proposal数量从10变化到300；本文同时探索了feature map的stride从32变化到16、8的影响；保持参数量不变；匹配方式统一为二分图，匹配框统一encode为[10*x_c/w_a, 10*y_c/h_a, 5*logw, 5*logh]，回归的loss统一设置为Smooth L1 Loss；输入图像分辨率统一resize到短边为600，同时对比了短边为300分辨率的情况；计算时间包含了一次forward加上post-processing的时间。