faster rcnn结构

rpn-data层输入的是data即整张图片，然后是根据映射生成roi框

rpn-loss-bbox输入的才是整个网络预测的roi框

bbox_transform在rpn-data层使用，把生成的achor，并不是把预测的roi框回归

rpn_loss_bbox，论文中定义输入是ti和ti*，ti和ti*是4维向量，但ti和ti*并不是预测框坐标和gt框坐标（即左上右下）。ti应该是论文中的tx、ty、tw、th组成的向量，即（x-xa）/wa、（y-ya）/ha、 log(w/wa)、 log(h/ha)，也即是预测框和anchor的四个偏移值——中心点x偏移了多少、中心点y偏移了多少、宽度（比例）差了多少、高度（比例）差了多少。ti*是论文中的tx*、ty*、tw*、th*组成的向量，即（x*-xa）/wa、（y*-ya）/ha、 log(w*/wa)、log(h*/ha)，也即是gt框和anchor四个偏移值——中心点x偏移了多少、中心点y偏移了多少、宽度（比例）差了多少、高度（比例）差了多少。所以说，直接训练的并不是坐标值，而是偏移值。

stage1和stage2的第二部分都是由rpn生成roi，在这一阶段会增加一个proposal_layer层，这一层是把这些偏移值转换为roi框的坐标。