Fast R-CNN

和R-CNN是同一位作者

ICCV'15

亮点

和R-CNN一样通过select search提取2000个框。随后和真实GT比较，IOU大于0.5的为正样本，0.1~0.5为负样本，小于0.1为hard example mining样本。

提取IOU前64个候选框作为训练样本，对于多目标图片，候选框和每个GT计算IOU，取最大值

最后的候选框会映射到特征图上的一块区域。

VGG16

因为候选框在RoI池化层输入，因此特征提取部分参数共享了。

N是输入图像数量-超参数（2）

R是所有RoI数量-超参数（128）

每张图像上ROI的数量为R/N（64）

（比R-CNN快64倍，64个ROI的特征提取部分相同）

把候选框映射得到的特征区域按照超参数划分为7*7（假设超参数为7，7）大小的网格（对每个网格内的特征块计算maxpooling），得到统一大小的输出。

将分类损失和框回归损失结合起来了

joint loss

最后的结果还是会用到NMS

检测时还是将2000个候选框同时映射到特征图上，最后得到的结果用NMS过滤

这里有个SVD的操作用来缓解计算压力

select search：只能在CPU上运行，速度慢