ROI pooling

R-CNN需要大量的候选框，对每个候选框都提取特征，速度很慢，无法做到实时检测，无法做到端到端。ROI pooling层实现training和testing的显著加速，并提高检测accuracy。

ROI pooling层能对不等尺寸的输入执行最大汇集以获得固定尺寸的特征映射，根据候选区域裁剪卷积特征图，然后用插值（通常是双线性的）将每个裁剪调整为固定大小（14×14×convdepth）。裁剪之后，用 2x2 核大小的最大池化来获得每个建议最终的固定的 7×7×convdepth 特征图，然后进行后续的全连接层操作。

该层有两个输入：

从具有多个卷积核池化的深度网络中获得的固定大小的feature maps；
感兴趣区域列表，第一列表示图像index，其余四列表示其余的左上角和右下角坐标：