论文阅读 | FPN：Feature Pyramid Networks for Object Detection

论文地址：https://arxiv.org/pdf/1612.03144v2.pdf

概述

FPN是FAIR发表在CVPR 2017上的一篇文章，采用特征金字塔的方法进行目标检测。文中利用深层卷积网络固有的多尺度金字塔层次结构，高效地构造特征金字塔。文章提出了FPN——一种具有横向连接的自顶向下的结构，来构建所有尺度上的高级语义特征映射。

网络结构

下图展示了几种不同的利用特征的方式：（a）为图像金字塔，就是对图像resize成不同大小，然后在不同大小的图像上生成feature map，在不同大小的feature map上分别进行预测，这种方法很耗时间；（b）是只在最后一层的feature map上进行预测，如SPPNet、Faster RCNN等等；（c）是多尺度的特征融合，也就是利用网络的不同层的feature map做预测，融合多个尺度特征层的预测结果，代表算法是SSD。（c）对feature map的利用仍然不够充分，注意到低层的目标位置信息比较准确，而高层的特征语义信息很丰富，进行多尺度特征的融合，每层对融合后的特征做独立预测的效果更好，也就是图（d）。

实际上，采用自顶向下以及跳跃连接结构的网络并不少，不过他们的目标是产生一个单一的、高分辨率的高层特征图，然后对其进行预测，如图2上半部分所示。而作者提出的网络则是在每一层中独立进行预测（图2下半部分）。

文中使用ResNet作为基础网络，特征金字塔的构造包括一个自底向上的路径，一个自顶向下的路径，以及横向连接，如图3所示。

自底向上的过程实际上就是前馈神经网络的计算过程。以ResNet为例，对每个阶段提取最后一个residual block的输出（conv2，conv3，conv4和conv5）来构成特征金字塔，相对于输入图像，步长分别为4、8、16、32像素（不使用conv1是因为它占内存太大）。自顶向下的过程通过上采样完成，也就是把高层的feature map通过最近邻上采样使其尺寸*2。横向连接就是将上采样的高层feature map和自底向上产生的feature map（通过1*1的卷积操作来减少feature map的通道数）融合（元素加）。通过上述过程不断迭代产生最好的feature map，即C2。在每个合并的map上附加一个3*3卷积产生最终特征映射，以降低上采样的混叠效应。

应用

1、FPN用于RPN

通过用FPN代替单尺度特征映射来改进RPN，也就是用FPN生成不同尺度的特征然后融合作为RPN的输入。在特征金字塔的每层都附加了一个相同设计的network head(3*3 conv和两个兄弟1*1卷积)，为每一层设计了单尺度的anchors（P2、P3、P4、P5、P6的anchor尺度分别为32*32、64*64、128*128、256*256、512*512），而且anchors使用多种宽高比（1:2、1:1和2:1）。整个特征金字塔一共有15种anchor。

2、FPN用于Fast R-CNN

为了将FPN用于Fast R-CNN，需要给金字塔的各层分配不同尺度的RoIs。第Pk层分配策略如下：

其中，224是ImageNet预训练的标准尺寸，k0是w*h=224^2的RoI应该映射到的目标层。文中k0设置为4。

实验结果

作者分别在Fast R-CNN和Faster R-CNN上做了对比实验，结果如下表2和表3所示，可以看出FPN的效果比单尺度特征更好，而且在小目标的检测中具有良好的表现。

在COCO比赛上的检测结果：

此外，将FPN用于实例分割也具有很好的效果，其结构及结果对比如下：