SSD算法的实现

本文目的：介绍一个超赞的项目——用Keras来实现SSD算法。

本文目录：

0 前言
1 如何训练SSD模型
2 如何评估SSD模型
3 如何微调SSD模型
4 其他注意点

0 前言

我在学习完SSD算法之后，对具体细节有很多的疑惑，记录如下：

SSD的网络是怎么实现的？
已有的数据是什么样子的？
如何把一张图像打散成anchors？
如何根据标注把各anchors打上标签？
正负样本是如何定义的？匹配策略是咋回事？
困难负样本挖掘是怎么实现的？
数据是怎么喂进去的？出来的又是什么？
L2 Normalization在哪，如何实现的？
Atrous层在哪？
SSD的损失函数是怎么实现的？
数据在模型中是怎么流动的？
数据增强是怎么实现的？
预测的结果如何在原图上画框？
如何计算模型在Pascal VOC或MS COCO上的mAP？

在github上搜索时，发现了这个超赞的项目——用Keras来实现SSD算法，非常适合那些学习了SSD算法，但具体细节有些模糊的同学（主要是我自己）。文档注释非常详细，且提供非常清晰的操作指导，比如如何训练SSD模型，如何评估模型的性能，如何在自己的数据集上微调预训练的模型等等。

为了便于快速理解，现以其中一个简单版本的SSD网络为例（ssd7_training.ipynb文件）来记录总结，具体细节可参考项目文档注释。

1 如何训练SSD模型

主函数流程中，除了库函数的引入，以及通用参数的预定义之外，主要分为四块内容：

准备模型；
- 构建模型；
- 自定义损失函数，并编译；
准备数据；
- 定义训练集和验证集的图像生成器对象datagen；
- 利用图像生成器的函数读取文件图像和标签信息；
- 定义图像增强方法链；
- 利用编码器将标签信息编码成损失函数需要的格式；
- 定义数据对的迭代器generator；
训练；
- 定义回调函数；
- 训练；
- 训练结果可视化；
预测（可视化检测效果）；
- 定义数据迭代器，并获取一个batch的样本；
- 将样本送入模型进行预测，并解码得到预测框；
- 将预测框和真值框画在原图上，对比效果。

1.1 准备模型

1.1.1 搭建模型

以training模式搭建一个小型的SSD模型。从4个地方引出predictor。各个预测特征图上每一个像素点均对应4个锚框。

模型搭建流程：

搭建base network；
从四个特征图处分别引出predictor；
每个predictor分为三条路径（按照第一篇参考文章的图示）；
分类那路需要softmax，最后三路在最后一维度concatenate, 得到(batches, n_total_boxes, 21+4+8)，即为模型原始输出raw output，其中n_boxes_total表示四个做预测的特征图对应的锚框总数，最后一个维度是21个类别+gt框偏移量+锚框坐标+variance；
若模式为inference，还需要在最后一层接上解码器DecodeDetections（输出经过置信度阈值、NMS等筛选后的预测框）

备注：

用AnchorBoxes层生成锚框，但为啥接在boxes4后面，而不是conv4后面，两者一样吗？答：一样的，因为只用了中间两个维度的数值，即特征图的高宽。但根据函数描述，应该接在conv4后面，即输入为(batch, height, width, channels)

AnchorBoxes层

目的是为了根据输入的特征图，将原图打散成一系列的锚框。
过程：根据参数缩放因子和高宽比，可以计算出特征图一个像素点对应的锚框数量和尺寸，再有特征图的高和宽，即可求得锚框的中心。
输入(batch, height, width, channels)，即特征图的尺寸。
输出(batch, height, width, n_boxes, 8)，这里n_boxes表示一个特征图对应的锚框总数，8表示锚框信息，即坐标+variance；

DecodeDetections层

在建模中mode=inference时，接在predictor后面的解码器；
过程：根据置信度阈值、NMS、最大输出数量等参数，对每张图筛选出前top_K个预测框；
输入即为模型的原始输出(batch,n_boxes_total,n_classes+4+8)，最后一维是类别(21)+框偏移量+锚框和variance（centroids格式）；
输出(batch,top_k,6)，最后一维是 (class_id, confidences, box_coordinates)，坐标格式是xmin, ymin, xmax, ymax。这里top_K=200，即便合理的预测框不够，也会凑出200个。

备注：

输入参数说明里要求，只支持坐标输出为coords='centroids'，这里coords='centroids'指的是输入的格式，实际输出格式是[xmin, ymin, xmax, ymax]。

1.1.2 自定义损失函数，并编译

（在SSD300模型中，需要先加载预训练的VGG16权重。）

自定义损失函数keras_ssd_loss.py

定义了一个损失类SSDLoss，里面有各种具体的损失函数，比如smooth L1和log损失；
smooth L1损失：两个参数都是(batch_size, #boxes, 4)，输出(batch_size, #boxes)。疑惑：这是直接求smooth L1，直接用坐标值求损失？照理说应该是求偏移量的损失啊？还是说输入的本来就应该是偏移量而非直接坐标值？答：在compute_loss函数中调用时传入的就是偏移量，所以OK。log损失很简单；
compute_loss函数计算总损失，参数y_true和y_pred都是(batch_size, #boxes, #classes+12)，输出scalar。疑问1，总损失为啥除以正样本个数而非总个数？答：正负样本比例为1:3，只是差个倍数，对结果不影响。疑问2，返回结果仍然是(batch,)，并非标量？那乘以batch_size还有意义吗？答：keras强制以batch的方式计算各个值，即始终保证batch维度，实际运算的时候会给出(batch,...)对batch的平均值，因为compute_loss计算的是一个batch总的损失，所以keras强制平均后再乘以batch_size即为总和。

备注：

自定义的损失函数，传给compile的是对象的一个函数，这个函数返回的是根据y_true和y_predict计算的损失；
这个y_pred格式是(batch_size, #boxes, #classes + 12)，即模型的raw output；y_true是后续SSDInputEncoder类实例将真值框编码后的输出；
如果是加载保存的模型，注意通过load_model中custom_objects传入自定义的层和函数。

1.2 准备数据

这一块内容大体上是通过自定义的图像生成器DataGenerator类及其方法来实现的。其中DataGenerator里面的函数generate()需要接收图像增强链和真值框编码器等参数，所以需要另外自定义两个类。

DataGenerator类

DataGenerator实例化时自动调用__ init __ ()，在这里面可以先进行图像增强处理（keras就是这么处理的，此处是在generate函数中做变形处理）；
DataGenerator里面的函数parser_csv()从文件中读入数据和标签（即真值框），读进来的真值框格式是一个长度为样本个数的list，其中每个元素为一个2D array，即array[[class_id, xmin, ymin, xmax, ymax]...]，shape为(n_boxes,5)，其中n_boxes为该样本的真值框个数；
DataGenerator里面的函数generate()接收图像增强链和真值框编码器等参数，作用是产生一批批的数据对(X,y)；（注意：keras内置的flow_from_directory实现了读取文件数据和生成(X,y)两个功能，但由于此处需要解析的文件除了CSV，可能还有其他形式，所以分成了两个函数）；
关于加速的方法之一：第一次先用parser_csv读取图像和标签，然后利用create_hdf5_dataset()函数，将图像和标签转成h5文件（训练集近8G，验证集近2G，均已包含真值框，但未编码）。以后创建DataGenerator时就可以直接读取h5文件，然后用generate函数生成数据对，不再需要用parser_csv。但是经过测试，训练时用不用h5文件貌似没有区别，训练一个epoch的时间均为12分钟。

定义数据增强链

DataAugmentationConstantInputSize类中，图像变形，真值框也要变形？否则就对不上了。如何变？答：在形变模块data_generator.object_detection_2d_geometric_ops中的方法，将labels一同放入进行了处理。
Python中，如果在创建class的时候写了__ call __ ()方法，那么该class实例化出实例后，实例名()就是调用__ call __ ()方法；在keras中自定义层时用call()，而不是__ call __ ()；
DataAugmentationConstantInputSize中__ init __ ()集成了一系列变形对象置于sequence中，并在__ call __ ()函数中调用。

用SSDInputEncoder类实例将真值框编码成损失函数需要的格式y_true（这里用y_encoded表示）

输入的gt_labels是一个长度为batch_size的list，其中每个元素为一个2D array，即array[[class_id, xmin, ymin, xmax, ymax]...]；
主要功能在__ call __ ()函数中实现，分为三步：
- 根据原图尺寸、缩放因子与高宽比、特征图尺寸三个条件，创建y_encoded模板（即一系列的anchors，shape为(batch,#boxes,21+4+4+4)，最后为21个类别+gt框坐标+锚框坐标+variance）;
- 匹配真值框和锚框，即更新最后一个维度的21+4；
- 将gt的坐标转换为锚框的偏移量；

调用train_dataset.generate()生成需要的数据对(X,y)

准备好数据增强链对象和SSDInputEncoder对象后，同其他参数一起传入train_dataset.generate中，指定生成器返回数据格式为(processed_images,encoded_labels)，（前者shape为(batch,h_img,w_img,channel)，后者即为用SSDInputEncoder类实例的输出结果），供后续model.fit_generator使用。

1.3 训练

定义了几个有用的回调函数，ModelCheckpoint（保存每次epoch之后的模型）、CSVLogger（将损失和指标保存至CSV文件）、EarlyStopping（早停）、ReduceLROnPlateau（平缓区自动减小学习率），在SSD300中还用了LearningRateScheduler（按计划调整学习率）、TerminateOnNaN（遇到NaN数据即停止训练）。其中最为常用的是ModelCheckpoint和CSVLogger。

训练时参数initial_epoch和final_epoch也很有意思，允许用户从上次中断的地方开始训练。（再也不怕中午睡觉被吵了:-)）

训练结果可视化：可以直接调用fit的返回值，也可以读取CSV文件中记录值。

1.4 预测（可视化检测效果）

获取预测值

定义数据迭代器，并获取一个batch的样本；
将这个batch的样本送入模型进行预测，得到预测值；（这时候得到的y_pred是模型的raw output）

解码器对预测值进行后处理

decode_detections函数功能同模型架构中解码器层DecodeDetections功能一样，都是：
- 偏移量转为坐标(可以是绝对坐标，也可以是相对坐标)，同时后12个数转成4个数；
- 针对每一个类别，进行置信度过滤和NMS；
- 选取前top_k个预测框（若设置top_k），不足top_k的话直接输出。
输入的y_pred参数：training模式下SSD模型的原始输出(batch,#boxes,21+4+4+4)，其中#boxes为所有锚框；
返回值：(batch,filtered_boxes,6)，其中filtered_boxes为经过筛选后的预测框数量，6为[class_id, confidence, xmin, ymin, xmax, ymax]；
注意： decode_detections函数和DecodeDetections层有不一样处：若经过筛选后预测框数量不足top_k，前者是直接输出，但后者会填充成top_k个（为了计算损失时维度一致）。

将预测框显示在图像上，对比效果

显示图像，画标注框和预测框的方法；
plt中plt.cm可将数值映射成伪色彩，（很有用，因为相对于亮度，人们对颜色的变化更敏感），参考

1.5 SSD300训练的区别

训练SSD300的模型时，用的是Pascal VOC的数据，标签文件是XML文件；
SSD300的模型结构中，有三点需要注意：
- 模型的结构按照原生SSD搭建；
- 空洞卷积层：fc6 = Conv2D(1024, (3, 3), dilation_rate=(6, 6),...)；
- L2 Normalization层：conv4_3_norm = L2Normalization(gamma_init=20,...)(conv4_3)；
疑问：SSD300定义模型参数的时候，将图像通道换成了BGR来训练，但是最后预测的时候图像通道没有换成BGR？

2 如何评估SSD模型

大致要点：

这一块单独列了一个文件，即SSD300_evaluation.ipynb；
SSD Evaluation中，创建模型用的是inference模式，下载的权重文件VGG_VOC0712Plus_SSD_300x300_ft_iter_160000.h5 是以training模式创建的模型训练的（既然是权重文件，那肯定是训练得到的，所以模型肯定是以training模式创建的），所以model.load_weights(weights_path, by_name=True)中需要加上by_name，否则对不上号；
绘制PR曲线的方法。

3 如何微调SSD模型

这一块内容详见 weight_sampling_tutorial.ipynb。

作者提供了几种训练好的SSD模型，那么如何微调这些模型，使其能在自己的数据集上完成自己的任务？比如现在我想识别8种物体，而作者提供的是在MS COCO上训练的能识别80种物体的模型，那么该如何操作？

作者提出了3种方法，并认为最好的方法是直接对分类器的结果进行下采样。比如SSD第一个predictor的分类器输出是(batch, h1, w1, 81 * 4)，其中h1和w1是conv4_3特征图的高度和宽度，对输出下采样得到(batch, h1, w1, 9 * 4)，其中9表示8种物体和背景，然后在自己的数据集上微调即可。这种方法对那些目标物体在MS COCO的80个类别之内的任务特别有效。

4 其他注意点

model.load_weights('./ssd7_weights.h5', by_name=True)：这里by_name是指只加载同名层的权重，适合加载那些结构不同的模型权重，详见
尽量使用model.save保存模型整体，因为分开保存后，重新加载时optimizer的状态会被重置，详见

Reference: