图像实例分割：CenterMask

CenterMask: single shot instance segmentation with point representation

论文链家：

https://arxiv.org/abs/2004.04446

摘要

本文提出了一种简单、快速、准确的单镜头实例分割方法。单阶段实例分割面临两个主要挑战：对象实例区分和像素级特征对齐。相应地，本文将实例分割分解为两个子任务：局部形状预测（即使在重叠的情况下也可以分离实例）和全局显著性生成（以像素到像素的方式分割整个图像）。两个分支的输出被组合起来形成最终的实例掩码。为了实现这一点，从物体中心点的表示中提取局部形状信息。完全从头开始训练，没有任何铃声和口哨声，提出的中心掩码达到34.5掩码AP，速度为12.3 fps，使用单一模型，在具有挑战性的COCO数据集上进行单尺度训练/测试。除速度慢5倍的TensorMask方法外，该方法的精度高于其他所有一级实例分割方法，说明了中心模板的有效性。此外，该方法还可以方便地嵌入到FCOS等单级目标检测器中，具有良好的性能，体现了中心掩模的通用性。

1. Introduction

为了解决这些问题，本文建议打破mask表示为两个平行组件：

（1）一种局部形状表示法，它为每个局部区域预测一个粗略的遮罩，可以自动分离不同的实例。

（2）一种全局显著性地图，它可以分割整个图像，提供显著性细节，并实现像素级对齐。为了实现这一点，从目标中心的点表示中提取局部形状信息。建模对象作为其中心点是由一级中心网[30]检测器驱动的，因此本文称之为方法中心掩码。建议的中心遮罩的图示如图1所示。给定输入图像，根据关键点估计管道预测目标中心点位置。然后提取中心点的特征表示，形成局部形状，局部形状由一个粗掩模表示，该粗掩模将物体与近距离物体分开。同时，完全卷积的主干线生成了整个图像的全局显著性图，在像素级将前景与背景分离。最后，将粗糙但感知实例的局部形状和精确但不感知实例的全局显著性映射组合起来，形成最终的实例掩码。

为了验证中心掩模的鲁棒性并分析其核心因素的影响，进行了大量的实验，比较了多个基本实例的融合性能。可视化结果表明，仅使用局部形状分支的中心mask可以很好地分离对象，而仅使用全局自性分支的模型在对象不重叠的情况下表现良好。在复杂和对象重叠的情况下，这两个分支的结合可以区分实例，同时实现像素级的分割。COCO[20]测试集图像的中心掩码结果如图2所示。

总之，本文的主要贡献如下：

•提出了一种无锚定盒的一阶段实例分割方法，该方法简单、快速、快速准确。完全从零开始训练，提出的中心掩模达到34.5掩模AP，速度为12.3 fps对具有挑战性的可可，显示出良好的速度精度权衡。此外，该方法还可以方便地嵌入到FCOS[27]等单级目标检测器中，具有良好的性能，体现了中心掩模的推广性。

•提出对象遮罩的局部形状表示，以区分无锚箱条件下的实例。局部形状分支使用对象中心点的表示，即使在重叠的情况下，也能有效地预测粗糙遮罩和分离对象。

•提出了全局显著性映射，实现自然的像素级特征对齐。与以前的特征对齐操作（例如分割）不同，该模块更简单、更快、更精确。全局显著性生成的行为类似于语义分割[23]，希望这项工作能够激励未来的一阶段全景分割[16]。

2. Related Work

两段式分割：两段式分割方法，先进行包围盒检测，再对包围盒区域的像素进行分类，得到最终的掩模。

一阶段实例分割：目前最先进的一阶段实例分割方法大致可以分为两类：基于全局区域的方法和基于局部区域的方法。基于全局区域的方法首先基于整个图像生成中间和共享的特征地图，然后将提取的特征集合起来形成每个实例的最终遮罩。

3. CenterMask

本文的目标是建立一种单阶段的实例分割方法。一个阶段意味着没有预先定义的兴趣区域（roi）用于掩模预测，这需要同时定位、分类和分割对象。为了实现这一点，本文将实例分割分解为两个简单且并行的子任务，并将它们的结果集合起来形成最终的掩码。第一个分支从每个对象的中心点表示预测粗糙形状，这可以约束每个对象的局部区域并自然区分实例。

第二个分支预测整个图像的显著性图，实现精确分割并保留精确的空间位置。最后，通过将两个分支的输出相乘来构造每个实例的掩码。

4. Experiments

在MS-COCO实例分割基准上对所提出的中心掩码的性能进行了评估[20]。该模型在115k个trainval 35k图像上进行训练，并在5k个minival图像上进行测试。最终结果在20k测试设备上进行评估。

5. Conclusion

本文提出了一种简单、快速、准确的单镜头锚箱自由实例分割方法。将掩模预测分解为两个关键模块：有效分离不同实例的局部形状分支和明智地实现精确分割像素的全局显著分支。大量的融合实验和可视化图像证明了该中心掩模的有效性。本文希望本文的工作能够帮助简化更多的实例级识别任务。