全景分割：CVPR2019论文解析

Panoptic Segmentation

论文链接：

http://openaccess.thecvf.com/content_CVPR_2019/papers/Kirillov_Panoptic_Segmentation_CVPR_2019_paper.pdf

For results: https://arxiv.org/abs/1801.00868.

摘要

本文提出并研究了一个称为全景分割（PS）的任务。全景分割是典型的语义分割（为每个像素指定一个类标签）和实例分割（检测并分割每个对象实例）的不同任务。提出的任务要求生成一个丰富而完整的连贯场景分割，这是迈向现实世界视觉系统的重要一步。虽然计算机视觉的早期工作解决了相关的图像/场景解析任务，但这些任务目前并不流行，可能是由于缺乏适当的度量或相关的识别挑战。为了解决这个问题，本文提出了一种新的全景质量（PQ）度量，它以可解释和统一的方式捕获所有类（东西和事物）的性能。使用所提出的度量，本文在三个现有数据集上对PS的人和机器性能进行了严格的研究，揭示了关于该任务的有趣见解。本文工作的目的是在一个更为统一的图像分割视角下重新唤起社区的兴趣。

1. Introduction

研究材料通常被定义为一个称为语义分割的任务，见图1b。由于材料是无定形和不可数的，这个任务被定义为简单地为图像中的每个像素分配一个类标签（注意，语义分割将材料类视为材料）。相比之下，研究对象通常被描述为对象检测或实例分割任务，目标是检测每个对象，并分别用边界框或分割掩码对其进行描绘，见图1c。虽然看似相关，但数据集、细节，而这两种视觉识别任务的度量标准差别很大。

最后，本文对PS的机器性能进行了初步研究。为此，本文定义了一个简单且可能是次优的启发式算法，通过一系列后处理步骤（本质上是一种复杂的非最大抑制形式）将语义和实例分割的两个独立系统的输出结合起来。

本文的启发式方法为PS建立了一个基线，并让本文深入了解它提出的主要算法挑战。本文在三个流行的分割数据集上研究了人和机器的性能，这些数据集都有东西注释。这包括城市景观[6]、ADE20k[54]和地图远景[35]数据集。对于这些数据集，本文直接从挑战组织者那里获得了最新方法的结果。

在未来，本文将把本文的分析扩展到COCO[25]上，在COCO[25]上对内容进行注释[4]。这些数据集上的本文的结果形成了一个坚实的基础研究人类和机器性能的全景分割。COCO[25]和Mapillary Vistas[35]都将全景分割任务作为其在ECCV2018识别挑战中的一个轨迹。本文希望，在这些流行的识别数据集上，将PS与实例和语义分割轨迹一起使用，将有助于更广泛地采用拟议的联合任务。

2. Related Work

在本文的工作中，本文的目标是恢复这一大方向，但与以前的工作相比，本文把重点放在任务本身。具体而言，如前所述，请注意：

（1）同时处理材料和材料类，

（2）使用简单的格式，并且

（3）为事物和事物引入统一的度量。以前关于联合分割的工作使用不同的格式和不相交的度量来评估东西。生成非重叠实例分段的方法[18、3、28、2]使用与PS相同的格式，但这些方法通常只处理对象类。本文希望通过处理内容和事情，使用简单的格式，引入统一的度量标准，鼓励更广泛地采用联合任务

3. Panoptic Segmentation Format

任务格式

全景分割的格式很容易定义。给定由L：={0，…，L−1}编码的一组预先确定的L语义类，该任务需要一个全景分割算法将图像的每个像素i映射到一对（li，zi）∈L×N，其中li表示像素i的语义类，zi表示其实例id。将同一类的zi的像素分组成不同的段。基本真理注释的编码是相同的。模棱两可或类外像素可以指定一个特殊的空标签；即，并非所有像素都必须具有语义标签。东西标签。语义标签集由子集LSt和LTh组成，使得L=LSt∪LTh和LSt∩LTh=`。这些子集分别对应于stuff和thing标签。当一个像素被li∈LSt标记时，其对应的实例id zi是不相关的。也就是说，对于stuff类，所有像素都属于同一个实例（例如，同一天空）。否则，具有相同（li，zi）赋值的所有像素，其中li∈LTh属于同一实例（例如，同一辆车），反之，属于单个实例的所有像素必须具有相同（li，zi）。与以前的数据集一样，选择哪些类是stuff vs.things是留给数据集创建者的设计选择。

与语义切分的关系

PS任务格式是语义分割格式的严格推广。实际上，这两个任务都要求为图像中的每个像素分配一个语义标签。如果基本事实没有指定实例，或者所有类都是东西，那么任务格式是相同的（尽管任务度量不同）。此外，包含事物类（可能每个图像有多个实例）可以区分任务。与实例分段的关系。实例分割任务需要一种方法来分割图像中的每个对象实例。然而，它允许重叠的片段，而全景分割任务只允许为每个像素分配一个语义标签和一个实例id。因此，对于PS，通过构造不可能有重叠。在下一节中，本文将展示这种差异在绩效评估中的重要作用。

置信度得分

与语义分割类似，但与实例分割不同，本文不需要与PS的每个分割相关联的置信度分数。这使得全景任务相对于人和机器是对称的：两者都必须生成相同类型的图像注释。这也使得评估PS的人类一致性变得简单。这与实例分割不同，实例分割不容易接受这样的研究，因为人类注释者不提供明确的可信度分数（尽管可以测量单个精度/召回点）。本文注意到，置信度得分给下游系统提供了更多的信息，这可能是有用的，因此，在某些设置中使用PS算法生成置信度得分仍然是可取的。

4. Panoptic Segmentation Metric

在这一节中，本文介绍了一种新的全景分割度量。本文首先注意到，现有的度量标准是专门用于语义或实例分段的，不能用于评估同时涉及stuff和thing类的联合任务。以前关于联合分割的工作通过使用独立的度量标准（例如[50，41，42，40]）来评估材料和事物的性能，从而避开了这个问题。然而，这给算法开发带来了挑战，使得比较更加困难，并且阻碍了通信。

本文希望引入一个统一的东西和事物度量将鼓励对统一任务的研究。在进一步讨论细节之前，本文首先确定以下适用于PS的度量的设计：

完整性

度量标准应该以统一的方式处理类和类，捕获任务的所有方面。可解释性。本文寻求一个具有明确含义的指标，以促进沟通和理解。

简单

此外，该指标应易于定义和实施。这提高了透明度，便于重新实施。与此相关的是，该指标应能有效计算，以实现快速评估。在这些原理的指导下，本文提出了一种新的全景质量（PQ）度量方法。

PQ测量与地面真实度相关的预测全景分割的质量。它包括两个步骤：

（1）段匹配和

（2）给定匹配的PQ计算。本文描述下一步的每个步骤，然后返回到与现有度量的比较。

4.1. Segment Matching

本文指定，只有当预测段和地面真值段在并集上的交集（IoU）严格大于0.5时，预测段和地面真值段才能匹配。这一要求，加上全景分割的不重叠特性，给出了一个独特的匹配：每个地面真值段最多只能有一个预测段匹配。

定理1. 给定图像的预测和地面真值全景分割，每个地面真值段最多可以有一个对应的预测段，IoU严格大于0.5，反之亦然。

匹配的要求必须具有大于0.5的IoU，这反过来产生唯一的匹配定理，实现了本文所期望的两个特性。首先，它是简单和有效的，因为通信是唯一和琐碎的获得。其次，它是可解释且易于理解的（并且不需要像这些类型的度量通常的情况那样解决复杂的匹配问题[13，49]）。注意，由于唯一性属性，对于IoU>0.5，任何合理的匹配策略（包括贪婪和最优）都将产生相同的匹配。对于较小的IoU，需要其他匹配技术；然而，在实验中，本文将表明，由于IoU≤0.5的匹配在实践中是罕见的，因此不需要较低的阈值。

4.2. PQ Computation

本文独立计算每一个班级的PQ，并对班级进行平均。这使得PQ对类不平衡不敏感。对于每个类，唯一匹配将预测的和基本的真值段分成三组：真阳性（TP）、假阳性（FP）和假阴性（FN），分别表示匹配的片段对、不匹配的预测片段和不匹配的地面真值片段。一个例子如图2所示。

本文对PQ的定义达到了本文的目的。它使用一个简单且可解释的公式以统一的方式度量所有类的性能。最后，本文讨论如何处理空白区域和实例组[25]。

无效标签

有两个来源的虚空标签在地面真相：（a）类外像素和（b）模糊或未知像素。由于本文常常无法区分这两种情况，因此本文不评估对空像素的预测。具体来说：（1）在匹配过程中，预测段中标记为地面真值中的虚空的所有像素都从预测中移除，并且不影响IoU计算；（2）匹配后，包含超过匹配阈值的部分空像素的不匹配预测段将被移除，并且不算作误报。最后，输出也可能包含空像素；这些不会影响计算。

组标签

一个常见的注释实践[6，25]是使用一个组标签，而不是同一语义类的相邻实例的实例ID，如果每个实例的准确描述是困难的。

对于计算PQ：

（1）在匹配过程中，不使用组区域，并且

（2）匹配后，将移除包含超过匹配阈值的来自同一类的一组像素的一小部分的未匹配预测段，并且不计为误报。

4.3. Comparison to Existing Metrics

本文通过比较PQ和现有的语义和实例分割度量得出结论。

语义分割度量

语义分割的常用度量包括像素精度、平均精度和IoU[30]。这些度量仅基于像素输出/标签计算，完全忽略对象级标签。例如，IoU是正确预测的像素与每个类的预测或地面真值中的像素总数之间的比率。由于这些度量忽略了实例标签，因此它们不太适合评估对象类。最后，请注意，用于语义分割的IoU与本文的分割质量（SQ）是不同的，SQ是根据匹配段上的平均IoU来计算的。

实例分段度量

例如，分割的标准度量是平均精度（AP）[25，13]。AP要求每个对象段都有一个置信分数来估计精度/召回曲线。请注意，对于对象检测来说，置信度分数是很自然的，但它们不用于语义分割。因此，AP不能用于测量语义切分的输出，或者类似于PS的输出（另请参见第3节中关于confidences的讨论）。

全景质量

PQ以统一的方式对待所有的类（东西）。本文注意到，虽然将PQ分解为SQ和RQ有助于解释结果，但PQ并不是语义和实例分割度量的组合。相反，SQ和RQ是针对每一类（材料和事物）计算的，并分别测量分割和识别质量。因此，所有课程的大学评估。本文在第7节中对PQ进行了严格的实验评估，包括分别在语义和实例分割方面与IoU和AP进行比较，从而支持这一说法。

5. Panoptic Segmentation Datasets

据本文所知，只有三个公共数据集同时具有密集的语义和实例分段注释：Cityscapes[6]、ADE20k[54]和Mapillary Vistas[35]。本文使用这三个数据集进行全景分割。此外，在未来，本文将把本文的分析扩展到COCO[25]，在COCO[25]上，最近对其进行了注释[4]。城市景观[6]有5000张城市环境中以自我为中心的驾驶场景图像（2975辆火车、500辆val和1525次测试）。它有19个类的密集像素注释（97%的覆盖率），其中8个类具有实例级分段。

ADE20k[54]有超过25k个图像（20k列，2k val，3k测试），这些图像使用开放字典标签集进行密集注释。在2017年的PlacesChallenge2中，选择了覆盖89%像素的100个thing和50个stuff类。本文在学习中使用这种封闭的词汇。

Mapillary Vistas[35]有25k幅街景图像（18k列车，2k val，5k测试），分辨率范围很广。数据集的“研究版”有密集的注释（98%的像素覆盖率），包含28个内容和37个内容类。

6. Human Consistency Study

全景分割的一个优点是它能够测量人类注释的一致性。除了这本身作为一个有趣的目的外，人类一致性研究允许本文详细了解任务，包括本文提出的度量标准的细节以及人类一致性在各个轴上的分解。

这使本文能够洞察任务带来的内在挑战，而不会因算法选择而影响本文的分析。此外，人类研究有助于地面机器性能（在第7节中讨论），并允许本文校准对任务的理解。人类注释

为了能够进行人类一致性分析，数据集创建者慷慨地为本文提供了30幅用于城市景观的双注释图像、64幅用于ADE20k的双注释图像和46幅用于远景的双注释图像。对于城市景观和远景，图像由不同的注释者独立注释。ADE20k由一位训练有素的注释员注释，他用6个月的时间间隔标记同一组图像。

为了测量人类注释者的全景质量（PQ），本文将每个图像的一个注释视为地面真实，另一个作为预测。请注意，PQ是对称的w.r.t.地面真相和预测，因此秩序是不重要的。人的一致性

首先，表1显示了每个数据集上的人类一致性，同时将PQ分解为分割质量（SQ）和识别质量（RQ）。正如所料，人类在这项任务上并不完美，这与文献[6，54，35]对注释质量的研究是一致的。

人类分割和分类错误的可视化分别如图3和图4所示。本文注意到，表1在每个数据集上建立了注释器一致性的度量，而不是人类一致性的上限。本文进一步强调，数据集之间的数字不具有可比性，不应用于评估数据集质量。类的数量、注释像素的百分比和场景的复杂度在不同的数据集中有所不同，每一个数据集都会对注释难度产生重大影响。东西vs.东西

PS要求对内容和内容进行细分。在表1中，本文还显示了PQSt和PQTh，这两个PQ分别是在stuff类和thing类上的平均值。对于城市景观和2万人的东西和事物的一致性是接近的，在远景上差距是有点大。总的来说，这意味着事物和事物有相似的困难，尽管事物类有点难。本文参考本文的arXiv版本以进一步分析度量。

小物体与大物体

为了分析PQ如何随对象大小而变化，本文将数据集划分为小（S）、中（M）和大（L）对象，分别考虑每个数据集中最小25%、中间50%和最大25%的对象。在表2中，本文看到对于大型对象，所有数据集的人的一致性都非常好。对于小物体来说，RQ下降非常明显，这意味着人类注释者通常很难找到小物体。但是，如果发现一个小物体，它就被分割得比较好。

7. Machine Performance Baselines

本文现在提出一个简单的机器基线进行全景分割。

本文有三个问题感兴趣：

（1）高性能实例和语义分割系统的启发式组合对全景分割有何作用？

（2） PQ与AP和IoU等现有指标相比如何？

（3）机器的结果和本文之前展示的人类结果相比如何？

算法和数据

本文希望根据现有的成熟方法来理解全景分割。因此，本文创建了一个基本的PS系统，将合理的启发式（稍后介绍）应用于现有的top-instance和语义分割系统的输出。本文得到了三个数据集的算法输出。对于城市景观，本文使用当前领先算法生成的val集输出（PSPNet[53]和Mask R-CNN[14]分别用于语义和实例分割）。

对于ADE20k，本文收到了2017 Places Challenge测试图像1k子集上语义[12，11]和实例[31，10]分割轨迹的获胜者的输出。用于LSUN'17的远景分割挑战赛，主办方为本文提供了1k测试图片和获奖作品的实例和语义分割轨迹结果[29，52]。利用这些数据，本文首先分别对实例和语义分割任务进行PQ分析，然后对完整的全景分割任务进行检验。请注意，本文的“基线”非常强大，更简单的基线可能更适合在PS论文中进行公平比较。

实例分割

实例分割算法产生重叠段。为了测量PQ，本文必须首先解决这些重叠。为此，本文开发了一个简单的非最大抑制（NMS）类过程。本文首先根据预测片段的置信度得分对其进行排序，并删除得分较低的实例。然后，本文迭代排序的实例，从最有说服力的实例开始。对于每一个例子，本文首先移除已经分配给前一个片段的像素，然后，如果片段的一个足够部分仍然存在，本文接受不重叠部分，否则本文丢弃整个片段。所有的阈值都是通过网格搜索来优化PQ。城市景观和ADE20k的结果如表3所示（由于只有一个条目进入2017年的实例挑战，因此远景被省略）。

最重要的是，AP和PQ密切跟踪，本文预计探测器AP的改进也将改善其PQ。语义分割通过设计，语义分割没有重叠的部分，因此本文可以直接计算PQ。

在表4中，本文将此任务的标准度量mean IoU与PQ进行了比较。对于城市景观，方法之间的PQ差距对应于IoU差距。对于ADE20k来说，差距要大得多。这是因为IoU计算正确的预测像素，而PQ则在实例级别运行。详见表4标题。

全景分割

为了产生PS的算法输出，本文从前面描述的NMS类过程中的非重叠实例段开始。然后，本文将这些片段与语义分割结果结合起来，解决事物类和材料类之间的任何重叠，而不是事物类（即，为带有事物和材料标签的像素分配了事物标签及其实例id）。这种启发式方法是不完美的，但作为一个基线是足够的。

表5将根据综合（“全景”）结果计算的PQSt和PQTh与通过上述单独预测获得的性能进行了比较。对于这些结果，本文将来自每个竞争对手的获胜条目用于实例和语义任务。由于重叠是有利于解决的事情，PQTh是恒定的，而PQSt是略低的全景预测。全景输出的可视化如图5所示。人与机器全景分割。为了比较人类和机器的PQ，本文使用上面描述的机器全景预测。

对于人工结果，本文使用第6节中描述的双注释图像，并使用引导程序获取置信区间，因为这些图像集很小。这些比较是不完美的，因为它们使用不同的测试图像，并且在不同的类上取平均值（省略了在双注释测试集中没有匹配的一些类），但是它们仍然可以提供一些有用的信号。本文在表6中给出了比较结果。对于SQ来说，机器只会稍微跟踪人类。

另一方面，机器RQ明显低于人类RQ，尤其是在ADE20k和远景上。这意味着识别，即分类，是当前方法的主要挑战。总的来说，人与机器的性能之间存在着巨大的差距。本文希望这一差距将启发未来对所提出的全景分割任务的研究。

8. Future of Panoptic Segmentation

本文的目标是通过邀请社区探索新的全景分割任务，推动研究朝着新的方向发展。本文认为，拟议的任务可以带来预期和意外的创新。最后，本文讨论了其中一些可能性和本文未来的计划。由于算法简单，本文提出的PS算法是基于最优实例输出和语义分割系统的启发式组合。这种方法是基本的第一步，但本文希望引入更多有趣的算法。具体而言，本文希望PS至少在两个领域推动创新：

（1）深度集成的端到端模型同时解决了PS.的双重性质和事物本质，许多实例分割方法包括（28, 2, 3，18）被设计成产生非重叠的实例预测，并且可以作为这种系统的基础。

（2）由于一个PS不能有重叠的片段，一些更高层次的“推理”形式可能是有益的，例如，基于扩展可学习的NMS[7，16]到PS。本文希望全景分割任务将激励这些领域的研究，导致令人兴奋的视觉新突破。