RoI Pooling -> RoI Align

分类任务（Fast-CNN、Faster-CNN）：两次 quantized，损失精度；

Mask-CNN：RoI Pooling -> RoI Align

4)假定采样点数为4，即表示，对于每个2.97*2.97的小区域，平分四份，每一份取其中心点位置，而中心点位置的像素，采用双线性插值法进行计算，这样，就会得到四个点的像素值，如下图

上图中，四个红色叉叉‘×’的像素值是通过双线性插值算法计算得到的

最后，取四个像素值中最大值作为这个小区域(即：2.97*2.97大小的区域)的像素值，如此类推，同样是49个小区域得到49个像素值，组成7*7大小的feature map

双线性插值法

在两个方向分别进行一次线性插值。

这里写图片描述

在图像处理的时候，我们先根据

srcX = dstX* (srcWidth/dstWidth)
srcY = dstY * (srcHeight/dstHeight)

来计算目标像素在源图像中的位置，这里计算的srcX和srcY一般都是浮点数，比如 f（1.2, 3.4）这个像素点是虚拟存在的，先找到与它临近的四个实际存在的像素点

（1，3） （2，3）
（1，4） （2，4）

写成 f(i+u,j+v) 的形式，则 u=0.2,v=0.4, i=1, j=3 。

f(i+u,j+v) = (1-u)(1-v)f(i,j) + (1-u)vf(i,j+1) + u(1-v)f(i+1,j) + uvf(i+1,j+1)

保证了空间对称性（Alignment），在 RoI Align 中使用。

因此有人提出不需要进行取整操作，如果计算得到小数，也就是没有落到真实的pixel上，那么就用最近的pixel对这一点虚拟pixel进行双线性插值，得到这个“pixel”的值。

具体做法如下图所示：

--> mask 边界 & 非边界（检测象素梯度变化），分别处理