Rcnn/Faster Rcnn/Faster Rcnn的理解

基于候选区域的目标检测器

1. 滑动窗口检测器

根据滑动窗口从图像中剪切图像块-->将剪切的图像块warp成固定大小-->cnn网络提取特征-->SVM和regressor进行分类和回归定位

选择性搜索

2. R-CNN

R-CNN 利用候选区域方法创建了约 2000 个 ROI --> 将每个ROI区域warp成固定大小的图像--> CNN网络提取特征--> SVM和regressor进行分类和回归定位；

3. Fast R-CNN

Fast R-CNN 使用特征提取器（CNN）先提取整个图像的特征（而不是从头开始对每个图像块提取多次）--> 在特征图上，利用候选区域方法得到ROI区域，并在对应的特征图上裁剪以得到特征图块--> 将这些特征图块warp成固定大小--> 输入CNN网络提取特征--> svm/regressor 进行分类和回归;

4. Faster R-CNN

Faster R-CNN 采用与 Fast R-CNN 相同的设计，只是它用内部深层网络代替了候选区域方法。新的候选区域网络（RPN）在生成 ROI 时效率更高，并且以每幅图像 10 毫秒的速度运行。

参考：https://baijiahao.baidu.com/s?id=1598999301741831102&wfr=spider&for=pc

https://blog.csdn.net/weixin_43198141/article/details/90178512

问题1：如何理解Faster RCNN算法框架中，回归Loss和分类Loss一起训练，计算损失？

　1）建议框P与Ground Truth边框的IOU越大，其对应的特征匹配度越高，计算的分类置信度得分越高；

2）边框回归的目的是让预测的边界框Pt与GT边框尽可能的接近，那么两者的IOU将会变大（理想情况下为1，两框完全重合），其对应的特征匹配度越高，计算的分类置信度得分越高，分类的Loss越少；

3）反过来，如果分类的Loss越小，说明其对应的特征匹配度越高，则预测目标的边框与GT的边框的IOU越大，即两边界框越接近，那么两边界框的偏移量越小，其对应的回归Loss越小。

4）也就是说回归Loss和分类Loss相互制约、影响关联，放在一起训练的目的就是保证分类准确的同时，定位尽可能精确.

参考：https://www.cnblogs.com/wangguchangqing/p/10393934.html

　　https://www.cnblogs.com/wangyong/p/8513563.html