训练：

使用5个最大池化层和5~13个不等的卷积层的三种网络进行预训练：CaffeNet，VGG_CNN_M_1024，VGG-16，使用之前要先做出如下改动：

对训练集中的图片，SS取出每个图片对应的一些proposal，对于每一个proposal，如果和ground truth中的proposal中的IOU值>=0.5，就把GT的标签信息给这个proposal，否则就标记为背景。

使用mini-batch=128，25%来自非背景标签的proposal，其余来自标记为背景的proposal，进行微调训练CNN，最后一层的结果包含分类信息和位置修正信息，用多任务的loss，一个是分类的损失函数，一个是位置的损失函数。

测试过程：

selective search方法提取图片的2000个proposal，并保存到文件；

将图片输入到已经训好的多层全卷积网络，对每一个proposal，获得对应的RoI Conv featrue map；

对每一个RoI Conv featrue map得到固定大小的feture map，并将其输入到后续的FC层（对全连接层进行了提速方法），最后一层输出类别相关信息和4个boundinf box的修正偏移量；

对bounding box 按照上述得到的位置偏移量进行修正，再根据nms对所有的proposal进行筛选，即可得到对该张图片的bounding box预测值以及每个bounding box对应的类和score。

分类：

cls_score层用于分类，输出K+1维数组P，表示属于K类和背景的概率。对每个ROI（region of interesting）输出离散型概率分布（softmax计算出来）：

loss_cls层评估分类代价。由真实分类u $u$

$u$

回归：

bbox_prdict层用于调整候选区域位置，输出bounding box回归的位移，输出4*K维数组t，分别表示属于K类时，应该平移缩放的参数。

k表示类别的索引，是指相对于object proposal尺度不变的平移，是指对数空间中相对于object proposal的高与宽。

loss_bbox评估检测框定位代价。比较真实分类对应的预测参数和真实平移缩放参数为 $v$

最后总损失为（两者加权和，如果分类为背景则不考虑定位损失）：

规定u=0为背景类（也就是负标签），那么艾弗森括号指数函数[u≥1]表示背景候选区域即负样本不参与回归损失，不需要对候选区域进行回归操作。

λ控制分类损失和回归损失的平衡。Fast R-CNN论文中，所有实验λ=1。

艾弗森括号指数函数为：

源码中bbox_loss_weights用于标记每一个bbox是否属于某一个类