faster rcnn源码阅读笔记1

自己保存的源码阅读笔记哈

　　faster rcnn 的主要识别过程（粗略）　（开始填坑了）：　

　一张３通道，1600*1600图像输入中,经过特征提取网络，得到100*100*512的feature map (设定stride = 16,这是坐标计算要用的)，基于这个，生成100 * 100 * scale * aspdio 的anchor box，然后，

这个feature map 通过使用两个卷积网络分别回归目标非目标和bbox_dealta,两个，分别是rpn_objectness_predictions_with_background：（score1,socre2）,rpn_box_encodings：(dx,dy,log(dh),log(dw))六个，size和anchor box 一一对应。　至此，first stage rpn net work 基本Ｏｋ。

　然后，进入second stage ,将(dx,dy,log(dh),log(dw))　和anchor box 结合，得到的proposals 进行非极大值抑制(tf.image.non_max_suppression)，并获得Ｎ个proposals（Ｎ可以设定）,然后，使用tf.image.crop_and_resize，将proposals对应的100*100*512的feature map (resnet101,中前block3作为first stage 的feature map,block4作为second stage

的feature map ,因为坐标是normolize归一化的，所以可以在不同size的feature map 上使用)上的对应目标crop and resize 出来进入bbox 的进一步refine和目标的类别分类，firs stage 中只有识别目标非目标，但是目标是什么类别（是人，还是自行车等等）还是在second stage 这里实现的。至此，inference过程结束，在training 阶段，还有正负样本输入（iou < 0.3,iou >0.7,和between）和loss计算的细节。

在loss 计算阶段：

　first stage loss 包含两部分localization_losses、objectness_losses，这时候，就需要计算anchor box 和ground truth bbox 的iou。以iou > 0.7的为正样本，小于0.3的为负样本。得到objectness_losses，并将iou > 0.7的正样本作为match 的，和ground truth bbox 进行做差，计算,rpn_box_encodings：(dx,dy,log(dh),log(dw))对应的ground truth (batch_reg_targets 框回归的目标）

计算loss,最后面得到：

loss_dict = {
'first_stage_localization_loss':
self._first_stage_loc_loss_weight * localization_loss,
'first_stage_objectness_loss':
self._first_stage_obj_loss_weight * objectness_loss,
}

second stage loss 计算和first stage 是一样的，不一样的就是，其分类变为多分类。同样也是设定iou 阈值

loss_dict = {
'second_stage_localization_loss':
(self._second_stage_loc_loss_weight * second_stage_loc_loss),
'second_stage_classification_loss':
(self._second_stage_cls_loss_weight * second_stage_cls_loss),
}

详细见　tensorflow models object detection 源代码：

https://github.com/tensorflow/models/tree/master/research/object_detection

总共对faster rcnn做了三次笔记，第一次