目标检测是很多计算机视觉应用的基础,比如实例分割、人体关键点提取、人脸识别等,它结合了目标分类和定位两个任务。现代大多数目标检测器的框架是 two-stage,其中目标检测被定义为一个多任务学习问题:1)区分前景物体框与背景并为它们分配适当的类别标签;2)回归一组系数使得最大化检测框和目标框之间的交并比(IoU)或其它指标。最后,通过一个 NMS 过程移除冗余的边界框(对同一目标的重复检测)。
本文首先综述近年来二维目标检测的优化方向,之后介绍CVPR2019目标检测最新进展,包括优化IoU的GIoU,优化anchor设计的GA-RPN,以及single-stage detection的FSAF。
公众号:SIGAI
二维目标检测的优化方向
基于目标检测的backbone和特征提取
GIoU
GA-RPN
1.alignment,为了用卷积特征作为anchor的表示,anchor的中心需要和特征图的像素中心比较好地对齐
2.consistency,不同位置(不同卷积层)对应的anchor的形状和大小应该一致。
位置预测
形状预测
Feature Adaption
缺点:
FSAF
文章提出的FSAF以RetinaNet为主要结构,添加一个FSAF分支图 5和原来的class subnet、regression subnet并行,可以不改变原有结构的基础上实现。在class subnet分支添加3x3卷积层(K个滤波器),得到WxHxK的特征图,预测K类目标所属类别的概率。regression subnet分支添加3x3卷积层(4个滤波器),得到WxHx4的特征图,预测回归框的偏移量。
在训练过程,每个anchor通过FPN各卷积层,经过anchor-free计算focal loss和IoU loss,最佳的pyramid level通过最小化focal loss和IoU loss实现。
参考文献
[1]B. Jiang, R. Luo, J. Mao, T. Xiao, and Y. Jiang. Acquisition of localization confidence for accurate object detection.In Proceedings, European Conference on Computer Vision (ECCV) workshops, 2018.
联系客服