M2Det by hs

一、简介

1、检测任务中的检测目标的尺度大小不同是导致检测难度增加的重要因素,目前解决的主要思路有两个:图像金字塔和特征金字塔,前者所需内存和计算开销都过于巨大,后者只对特征图进行处理,可以有效地降低开销。

2、论文提出了一种新型的特征金字塔MLFPN,从名字可以看出是在FPN的思想上改进的,是一种更为复杂且具有多层特征的金字塔网络。

3、M2Det的检测网络结构是在SSD的基础上改进的single-shot结构,在MS-COCO数据集上可以达到44.2的AP。

二、参考

AAAI19:M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid

论文:https://arxiv.org/abs/1811.04533

三、特征金字塔

特征金字塔的概念在很多检测网络中都有体现,比如SSD、FPN等等。对特征金字塔而言,低层的特征往往具有更多的位置信息,高层的特征则具有更丰富的语义信息,所以网络一般都将multi-level的特征给融合起来,这样就可以得到位置信息和语义信息都很丰富的特征。

上图列举了几种典型的特征金字塔结构,作者认为有这两个局限性

1、基于分类网络作为主干提取,对目标检测任务而言特征表示可能不够

2、每个feature map仅由主干网络的single level给出,不够全面

个人理解就是网络的结构不够复杂,得到的特征不够全面,所以作者提出了MLFPN,是一个较为复杂的特征金字塔网络。

四、MLFPN

下图为结构图,主要由3个部分组成FFM、TUM、SFAM

1、FFM

就是一个简单的把两个特征图concat在一起的结构,有两个版本,主要用于从主干部分提取Base feature和将TUM的特征传递

2、TUM

TUM用来生成multi-level和multi-scale特征,意义在于生成的特征将multi-level和multi-scale给结合起来,同时在主干网络的特征基础上又通过了网络来加强网络的学习能力。

3、SFAM

用来整合TUM得到的特征,首先将相同scale的特征图进行拼接得到不同scale大小的特征图金字塔,然后对每个scale的特征图进行channel-wise attention的处理。这样更好地将不同level和scale的特征混合在一起。

五、M2Det

  • M2Det的主干网络采用VGG-16和ResNet-101
  • MLFPN的默认配置包含有8个TUM,每个TUM包含5个跨步卷积核5个上采样操作,所以每个TUM的输出包含了6个不同scale的特征。
  • 在检测阶段,为6组金字塔特征每组后面添加两个卷积层,以分别实现位置回归和分类。
  • 后处理阶段,使用soft-NMS来过滤无用的包围框。

六、总结

1、特征的维度包括网络深度(multi-level)、特征图尺寸(multi-scale)、通道维度(channel-wise),空间维度(spatial-wise),通过对这些维度的处理来得到更好地特征可以有效地提升检测网络的性能。

2、在检测网络的主干结构上添加一些分支网络,用来提升某方面的性能,不显著增加网络的计算量,并且提升网络的性能是一个普遍的思路。如RPN网络,FPN网络等等。

原文地址:https://www.cnblogs.com/bupt213/p/11381571.html