R-FCN:Object Detection via Region-based Fully Convolutional Networks

在Fast R-CNN中，rbg利用 ROI Pooling 解决了不同尺寸 proposal 的特征提取问题，在其升级版 Faster R-CNN 中rbg进一步提出了 RPN 网络，通过共享输入图像的卷积特征，快速生成 proposal。纵观整个 R-CNN 系列的发展过程，我们可以发现，Fast R-CNN中之所以引进 ROI Pooling 是因为网络中全连接层的存在。事实上，一些state of art的图片分类网络均为全卷积网络，如ResNet、GoogLeNet等。所以很自然地，是否可以将目标检测的网络也用全卷积网络来实现？事实证明，如果简单地丢弃全连接层（实现融合特征和特征映射），检测的效果会很差。

Region based Fully Convolutional Network（R-FCN）的提出即是为了解决这样的一对矛盾，R-FCN中的一个关键层是位置敏感ROI池化层（position-sensitive RoI pooling layer）。

首先来看一下R-FCN的网络结构。和Faster R-CNN一样，R-FCN也是基于region proposal的两级检测架构。

“对于region-based的检测方法，以Faster R-CNN为例，实际上是分成了几个subnetwork，第一个用来在整张图上做比较耗时的conv，这些操作与region无关，是计算共享的。第二个subnetwork是用来产生候选的boundingbox（如RPN），第三个subnetwork用来分类或进一步对box进行regression（如Fast RCNN），这个subnetwork和region是有关系的，必须每个region单独跑网络，衔接在这个subnetwork和前两个subnetwork中间的就是ROI pooling。我们希望的是，耗时的卷积都尽量移到前面共享的subnetwork上。因此，和Faster RCNN中用的ResNet（前91层共享，插入ROI pooling，后10层不共享）策略不同，本文把所有的101层都放在了前面共享的subnetwork。最后用来prediction的卷积只有1层，大大减少了计算量。

R-FCN 首先也是一个RPN的网络，用于生成和训练proposal（ROI）。所不同的是，Faster R-CNN中，ROI Pooling层直接对ROI进行分块池化输出用于分类和回归的特征向量。

R-FCN中，则将每一个ROI划分成 $k\timesk个格，池化输出每个格的位置得分，再通过投票方式得到 ROI 最后的输出特征向量。的首先生成 k^2(C+1) 通道大小的输出。其中， C 为类别数（+1为背景）， k^2 表示将ROI区域划分成 k\timesk个格，如上图所示。如 k=3，则对应9个格，分别为上左（左上角），上中，上右，中左，中中，中右，下左，下中，下右（右下角），如下图所示：$

Backbone网络：ResNet101——去除原始网络最后的平均池化层和全连接层，保留100层的卷积层用于特征提取。为了降维，100层卷积层之后又添加了一层1×1×1024的卷积层，使输出维度变成1024（原始的是2048）。之后再接一层卷积层用于产生得分图

Position-Sensitive score map

这张图就是R-FCN的网络结构图，其主要设计思想就是“位置敏感得分图position-sensitive score map”。现在就对着这张图来解释其设计思路。如果一个RoI含有一个类别c的物体，那么作者将该RoI划分为 $k imes k$ 个区域，分别表示该物体的各个部位，比如假设该RoI中含有人这个物体，k=3，那么就将“人”划分为了9个子区域，top-center区域毫无疑问应该是人的头部，而bottom-center应该是人的脚部，而将RoI划分为 $k imes k$ 个区域是希望这个RoI在其中的每一个区域都应该含有该类别c的物体的各个部位，即如果是人，那么RoI的top-center区域就必须含有人的头部。而当这所有子区域都含有各自对应的该物体的相应部位后，那么分类器才会将该RoI判断为该类别。物体的各个部位和RoI的这些子区域是“一一映射”的对应关系。

好了，现在我们知道了一个RoI必须是 $k imes k$ 个子区域都含有该物体的相应部位，才能判断该RoI属于该物体，如果该物体的很多部位都没有出现在相应的子区域中，那么就判断该RoI为背景类别。那么现在的问题就是“网络如何判断一个RoI的 $k imes k$ 个子区域都含有相应部位呢？”前面我们是假设知道每个子区域是否含有物体的相应部位，那么我们就能判断该RoI是否属于该物体还是属于背景。那么现在的任务就是“判断RoI子区域是否含有物体的相应部位

这就是position-sensitive score map设计的核心思想了。R-FCN会在共享卷积层的最后再接上一层卷积层，而该卷积层就是“位置敏感得分图position-sensitive score map”，该score map是什么意义呢？首先它就是一层卷积层，它的height和width和共享卷积层的一样，但是它的channels= $k^{2}(C+1)$ ，如上图所示。那么C表示物体类别种数再加上1个背景类别，每个类别都有 $k^{2}$ 个score maps。现在我们先只针对其中的一个类别来讨论，假设是人这个类别，那么其有 $k^{2}$ 个score maps，每一个score map表示“原图image中的哪些位置含有人的某个一个部位”，而该score map会在含有“该score map对应的人体的某个部位”的位置有“高响应值”，也就是说每一个score map都是用来“描述人体的其中一个部位出现在该score map的何处，而在出现的地方就有高响应值”。那么好了既然是这样，那么我们只要将RoI的各个子区域对应到“属于人的每一个score map”上然后获取它的响应值不就好了。对，就是这样。但是要注意，由于一各score map都是只属于“一个类别的一个部位”的，所以RoI的第 $i$ 个子区域一定要到第 $i$ 张score map上去找对应区域的响应值，因为RoI的第 $i$ 的子区域需要的部位和第 $i$ 张score map关注的部位是一样的，所以就是这样的对应关系。那么现在该RoI的 $k imes k$ 个子区域都已经分别到“属于人的 $k^{2}$ 个score maps”上找到其响应值了，那么如果这些响应值都很高，那么就证明该RoI是人呀~对吧。不过，当然这有点不严谨，因为我们只是在“属于人的 $k^{2}$ 个score maps”上找响应值，我们还没有到属于其它类别的score maps上找响应值呢，万一该RoI的各个子区域在属于其它类别的上的score maps的响应值也很高，那么该RoI就也有可能属于其它类别呢？是吧，万一2个类别的物体本身就长的很像呢？所以呢，当然就是看那个类别的响应值更高了。

https://zhuanlan.zhihu.com/p/30867916文章很不错，可以借鉴读一读。