Fast R-CNN

Fast R-CNN

和R-CNN是同一位作者

ICCV'15

paper:Fast R-CNN

亮点

  • 引用ROI pooling,可以输入任意尺寸的图像
  • region proposal在特征提取之后,可以共享卷积层部分的参数
  • 分类部分换成全连接层softmax
  • loss是分类+框回归的联合,不用分别训练

网络结构

R-CNN的缺点

  • 多阶段
  • 生成候选框太慢
  • 特征提取和还有SVM分类器和框的回归会要求很需求内存,速度也慢

整体结构

Region Proposal

和R-CNN一样通过select search提取2000个框。随后和真实GT比较,IOU大于0.5的为正样本,0.1~0.5为负样本,小于0.1为hard example mining样本。

提取IOU前64个候选框作为训练样本,对于多目标图片,候选框和每个GT计算IOU,取最大值

最后的候选框会映射到特征图上的一块区域。

特征提取

VGG16

因为候选框在RoI池化层输入,因此特征提取部分参数共享了。

Mini-batch

N是输入图像数量-超参数(2)

R是所有RoI数量-超参数(128)

每张图像上ROI的数量为R/N(64)

(比R-CNN快64倍,64个ROI的特征提取部分相同)

RoI池化

把候选框映射得到的特征区域按照超参数划分为7*7(假设超参数为7,7)大小的网格(对每个网格内的特征块计算maxpooling),得到统一大小的输出。

联合损失

将分类损失和框回归损失结合起来了

joint loss

NMS

最后的结果还是会用到NMS

检测

检测时还是将2000个候选框同时映射到特征图上,最后得到的结果用NMS过滤

这里有个SVD的操作用来缓解计算压力

缺点

select search:只能在CPU上运行,速度慢

原文地址:https://www.cnblogs.com/xiaowk/p/15153849.html