[目标检测]SSD原理

1 SSD基础原理

1.1 SSD网络结构

SSD使用VGG-16-Atrous作为基础网络，其中黄色部分为在VGG-16基础网络上填加的特征提取层。SSD与yolo不同之处是除了在最终特征图上做目标检测之外，还在之前选取的5个特特征图上进行预测。
SSD图1为SSD网络进行一次预测的示意图，可以看出，检测过程不仅在填加特征图(conv8_2, conv9_2, conv_10_2, pool_11)上进行，为了保证网络对小目标有很好检测效果，检测过程也在基础网络特征图(conv4_3, conv_7)上进行。

1.2 SSD网络的损失函数

注意：图中fc6, fc7名为fc，其实是卷积层。
SSD图2为整个SSD训练网络的结构，由于图像所含层数太多，网络中不能看到每层细节，我重画其中部分层为绿色，作为代表。可以看出，GT标签在分特征图上生成priorbox，即再将所有priobox组合为mbox_priorbox作为所有默认框的真实值。再看预测过程，会在所选取的特征图进行两个 3x3卷积，其中一个输出每个默认框的位置(x, y, w, h)四个值，另一个卷积层输出每个默认框检测到不同类别物体的概率，输出个数为预测类别个数。再将所有的默认框位置整合为mbox_loc，将所有默认框预测类别的向量组合为mbox_conf。mbox_loc、mbox_conf为所有预测默认框，将它与所有默认框的真实值mbox_priorbox进行计算损失，得到mbox_loss。
图中data下方每个priorbox都对应了min_size与max_size，表示不同特征图上的默认框在原图上的最小与最大感受野。关于不同特征图上的min_size与max_size，论文中给出的计算公式，可惜与实现的prototxt中的参数并不对应。
SSD的损失函数如图3所示，由每个默认框的定位损失与分类损失构成。

1.3 SSD网络训练技巧

1.3.1 数据增强

SSD训练过程中使用的数据增强对网络性能影响很大，大约有6.7%的mAP提升。
(1) 随机剪裁：采样一个片段，使剪裁部分与目标重叠分别为0.1, 0.3, 0.5, 0.7, 0.9，剪裁完resize到固定尺寸。
(2) 以0.5的概率随机水平翻转。

1.3.2 是否在基础网络部分的conv4_3进行检测

基础网络部分特征图分辨率高，原图中信息更完整，感受野较小，可以用来检测图像中的小目标，这也是SSD相对于YOLO检测小目标的优势所在。增加对基础网络conv4_3的特征图的检测可以使mAP提升4%。

1.3.3 使用瘦高与宽扁默认框

数据集中目标的开关往往各式各样，因此挑选合适形状的默认框能够提高检测效果。作者实验得出使用瘦高与宽扁默认框相对于只使用正方形默认框有2.9%mAP提升。

1.3.4 使用atrous卷积

通常卷积过程中为了使特征图尺寸特征图尺寸保持不变，通过会在边缘打padding，但人为加入的padding值会引入噪声，因此，使用atrous卷积能够在保持感受野不变的条件下，减少padding噪声，关于atrous参考。本文SSD训练过程中并且没有使用atrous卷积，但预训练过程使用的模型为VGG-16-atrous，意味着作者给的预训练模型是使用atrous卷积训练出来的。使用atrous版本VGG-16作为预训模型比较普通VGG-16要提高0.7%mAP。

1.4 实验结论

作者发现SSD对小目标检测效果不好(但也比YOLO要好，因此多特征图检测)，这是因为小物体在高层特征图上保留很少的信息，通过增加输入图像的尺寸能够解决对小物体检测效果。

1.5 参考

ssd详解
 关于atrous