摘要
我们提出了一个全卷积一阶段目标检测框架,以类似于实例分割的逐像素预测方式来解决目标检测问题。目前几乎所有顶尖的目标检测框架(如RetinaNet,SSD,YOLOv3,Faster R-CNN等)都依赖于预定义的锚框。相反,我们提出的FCOS目标检测框架不需要锚框,当然也不需要候选框。由于移除了大量预定义的锚框,FCOS避免了大量关于锚框的复杂运算,如训练过程中计算框的重叠程度。更重要的是,FCOS也避免了关于锚框的所有超参数,而模型的最终的检测性能往往对这些超参数很敏感。采用 ResNeXt-64x4d-101主干网络,并仅凭借NMS后处理步骤,FCOS在单模型单尺度预测的条件下达到了44.7%的mAP,在保持模型更简洁的同时超过了当前的一阶段检测框架。我们以一种更简洁且灵活性更强的检测框架提升了检测性能。我们希望FCOS可以成为其他实例层面任务的一种更简洁更强大的替代框架。代码开源在:https://tinyurl.com/FCOSv1
动机
基于锚框的目标检测框架在检测性能上取得很大成就,但天然地存在以下缺陷:
- 检测性能对锚框的大小、比例和数量等参数很敏感,而且这些超参数都需要人工根据经验调节,当参数调节不当的时候,最终的AP波动很大(有实验结果表示在COCO上能达到4%的AP浮动)
- 目标的大小往往变化幅度很大,即使锚框参数被调节得很好,在处理多变的目标大小,尤其对于小目标检测时依然存在困难。再者,在应用于新的数据集时,由于目标的分布已经完全不同,锚框参数往往需要重新调节,扩展性较差。
- 为了达到更高的召回率,基于锚框的方法需要在输入图片上密集采样,密集采样的结果往往质量不高,且大多为背景样本,这就导致了另外一个问题,即训练过程中正负样本的严重不平衡。(一阶段检测框架密集采样相比于基于RPN的二阶段检测框架的不平衡更严重)
- 基于锚框的检测框架会带来更多的计算成本,如计算候选框和标注框之间的IOU
基于全卷积结构的像素级预测的方式已广泛应用于视觉领域的很多应用,如实例分割、关键点检测等,而由于锚框机制的存在,目标检测框架很难移植到其他任务上。如果能够避开锚框,也采用一种像素层面的预测方法,这样也可以很好地拓展到其他视觉任务,从而实现视觉任务方法的统一。
FCOS检测框架
整体框架
和大多数检测框架相同,FCOS检测框架也分为特征提取主干网络、用于多尺度的特征金字塔和用于预测的分类分支和位置回归分支。FCOS的主要思想体现在以下几个方面:
定义训练样本和正负样本划分。对于基于锚框的检测方法,训练样本自然就从一系列不同大小的锚框中选取,对于一阶段检测框架,最常见的做法是根据锚框与标注框的IOU来选取及划分正负样本;对于二阶段检测框架,利用RPN网络来选取质量最好的若干个锚框作为训练样本。而FCOS不再依赖于锚框,直接把特征图上的每个位置当作训练样本(和用于实例分割 全卷积网络相同)。更详细地说,对于特征图上的每个位置,如果映射到原图时该位置落在某个标注框里,那么就把它当作训练的正样本,同时该位置对应的类别也是对应标注框的类别,否则的话就把它当作负样本。
正样本的回归目标。前面提到过训练样本的类别标签由落在的标注框确定,对于目标位置的回归,FCOS中采用从该位置到对应标注框四条边的距离作为预测的目标,如下图(左)。但这样做会带来一个问题:当某个位置映射到原图后落在了多个标注框里(下图右),该如何确定对应的训练目标呢?FCOS中采用的标准以面积最小的那个标注框作为回归的目标。此外还需要补充的是,为了保证回归的稳定性,FCOS中也采用了一种常见的映射手段,将回归的距离(始终大于0)通过指数函数$exp(x)$进行映射。
网络输出部分设计。根据样本类别预测和位置回归的设计,对于每个训练样本,FCOS在模型输出时采用两个卷积预测分支,分别是一个输出C维的二值分类预测分支和输出4维的位置预测分支。而对于基于锚框的检测框架,在模型输出部分的维数和每个位置的锚框数量(通常取9)成正比。在这点上,FCOS的输出维数要比基于锚框的方法小很多。
损失函数设计。FCOS和其他检测框架一样,损失函数包含类别损失和位置损失。其中,类别损失采用Focal loss,位置损失采用IOU loss,定义如下:
参数$\lambda$用于权衡类别和位置损失,在FCOS中$\lambda$取1。
FPN用于FCOS
FCOS中也引入了FPN,一是用来提高FCOS的召回率,二是用来缓解样本训练的二义性问题。前面说过FCOS在遇到一个位置落在两个标注框内的情况时,选取面积小的作为训练的目标。在采用FPN后,FCOS将不同大小的训练样本分到不同层的特征图上,让二义性的情况大大减少。
更具体地讲,FCOS中共利用5层特征金字塔,分别表示为$P_3,P_4,P_5,P_6,P_7$,其中$P_3,P_4,P_5$由主干网络输出的特征图$C_3,C_4,C_5$经过一个1x1的卷积层得到,同时深层与浅层的特征图之间有横向连接。最终5层的特征图下采样的倍数分别为8, 16, 32, 64, 128(对应感受野越来越大)。每层的特征图只负责预测特定的目标,具体预测哪些目标由预测的最大距离来确定。越高层的特征图负责预测的最大距离也越大(高层特征图感受野大,适合预测大目标,而大目标需要回归的距离也往往越大)。为了进一步适应这种预测策略,FCOS将距离的映射函数$exp(x)$修改为$exp(s_ix)$,通过增加一个可训练的比例项$s$来更好地适应不同大小的预测范围。
Center-ness用于FCOS
之前提到过,FCOS回归的目标是当前位置到目标框四条边的距离。但这会存在一个问题,候选框种存在大量离目标框中心比较远的低质量候选框。FCOS中引入中心度(Center-ness)的概念来滤除大部分的低质量框。具体定义如下:
从上式可以看出,中心度大小由当前位置到四条边的距离的比值密切相关,当左右或上下的距离相近时(即当前位置靠近待回归的目标中心),中心度越高,反之中心度越低。通过将每个框的中心度与类别得分相乘,降低低质量候选框的类别得分,使得这些候选框在NMS过程中被抑制,从而提高检测的性能。
实验结果
这里只列出FCOS和其他主流检测模型的结果对比,从结果中可以看出:
- FCOS和RetinaNet的整体结构相似,相比较于一阶段有锚框的RetinaNet,无锚框的一阶段框架FCOS在均采用ResNet-101-FPN主干网络时,在AP上从39.1提高到41.5,性能提升十分可观。而相比于经典的二阶段有锚框的Faster R-CNN, 在依然采用ResNet-101-FPN主干网络时,性能提升更加显著。
- 相比于无锚框的一阶段网络CornerNet,在多种主干网络下,FCOS的性能依然很有竞争力。
- FCOS在采用当前流行的ResNeXt-64x4d-101-FPN主干网络时,最高AP达到了44.7,已经处于同时期检测网络中state of art的水平。
总结
目标检测发展至今,分别以R-CNN系列和YOLO系列为代表的二阶段网络和一阶段网络,在发展的四五年里都逐渐向锚框靠拢,虽然锚框的引入大幅度地提高了检测模型的性能,但由于锚框中超参数的存在,让模型对不同分布数据的适应能力变差。以FCOS、CenterNet、CornerNet为代表的无锚框检测模型的出现,无疑为解决目标检测任务提供了一种新的思路。