Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

2020-03-30 19:02:01

Paper: https://arxiv.org/abs/2003.08813（CVPR-2020 Oral）

Code: https://github.com/luogen1996/MCN

1. Background and Motivation:

本文主要是讨论了基于 text 的分割和检测任务之间互补性。如图 1 所示，一般情况下，这两个任务会被单独的进行处理: Referring Expression Comprehension (REC) and Referring Expression Segmentation (RES)。在 REC 中，大部分的方法采用的是多阶段的方式进行处理，即：首先进行显著性检测，然后用多模态交互方法选择最匹配的作为最终结果。在 RES 中，现有的方法通常先用 LSTM/GRU 模型将文本进行映射，然后进行分割。虽然最近的方法可以同时处理 REC 和 RES，但是这种多任务处理的方式，很大程度上依赖于他们的骨干检测器， maskRCNN，而不是他们进行了两个任务之间的交互。与 RES 相比，REC 在预测潜在位置上更有优势，这可以协助 RES 来确定正确的示例。另一方面，RES 使用的是 pixel-level labels，可以帮助 REC 获得更好的 language-vision alignments。然而，这种联合训练，并不是很直接的，因为有如下的冲突：如图 1（b）所示，这种预测冲突在 general 的物体检测和分割中也经常遇见。然而，这种冲突在 RES 和 REC 上更加重要，因为仅仅一部分多示例是正确的 referents。

为了解决上述挑战，作者提出多任务协同网络 (multi-task collaborative network, MCN) 来联合的学习 REC 和 RES，如图 2 所示。MCN 原则上来说，属于一种多模态、多任务协同学习框架。在文本信息的基础上，将两个任务联合在一起，来最大化他们的协同学习。特别的，视觉骨干网络和语言编码器是共享的，两个任务的多模态推理分支是相对独立的。这种设计是为了考虑 REC 和 RES 任务之间的固有的差异性，而避免出现一个任务效果很好，但是另外一个任务效果很差的情况，RES 通常需要更大分辨率的特征图，来进行像素级的预测。

为了解决上述预测冲突问题，作者在 MCN 的基础上，又添加了两项创新性的设计： Consistency Energy Maximization (CEM) and Adaptive Soft Non-Located Suppression (ASNLS)。CEM 是一种以 language 为中心的损失函数，通过最大化两个推理分支的一致性能量，使得两个任务可以聚焦在相似的视觉区域上。此外，其也提供了一个分支俩链接 REC 和 RES 的学习过程。ASNLS 是一种后处理的方法，在 REC 预测的基础上来抑制不相关的区域。

2. The Proposed Method:

Objective Function：

对于 RES 来说，作者采用的是 ASPP decoder 来预测分割掩码，计算像素级损失函数。

对于 REC 来说，作者添加了一个 regression layer 来预测置信度得分和 BBox 的位置。

为了处理预测冲突的问题，作者这里提出利用 Consistenvy Energy Maximization (CEM) 机制来降低这种影响。

具体来说哦，给定 RES 和 REC 的注意力 tensors，即： $F_a^s, F_a^c$，作者将其映射为 two-order tensors：

然后，在 Ec 和 Es 上执行 softmax，以得到 REC 和 RES 在图像中的能量分布，记为：Ec' , Es'。这两者的元素表明了对应区域和给定表达之间的响应程度。为了最大化两个任务之间的 co-energy，作者进一步计算了 inter-task correlation：

其中，小 f 是 F 的元素值。co-energy C 可以按照如下的方式进行计算：

其中，$alpha_s, alpha_c$ 是两个正则化项，用于乘法不相关的响应，记为：

最终，CEM loss 可以构建为：

Adaptive Soft Non-Located Suppression：

作者提出一种 soft post-processing 的方法来处理预测冲突问题，称为：ASNLS。根据 REC 预测得出的 BBox，ASNLS 抑制不相关的区域，增强相关的区域。与现有的 hard processing，如 ROI Pooling, ROI Align，直接扣取对应 BBox 的特征不同，soft processing 可以获得更好的容错率。特别的，给定 RES 预测的 mask，O，以及 bbox b，在 O 中的每一个元素都可以通过如下的方式进行更新：

然后，更新后的 RES 结果 O 被二值化处理，以得到最终的 mask。这里，作者进一步对其进行了升级，得到了 adaptive version 的 soft-NLS，其中，更新因子可以根据 REC 的预测置信度得到。

给定置信度得分 p，$alpha_{up}, alpha_{dec}$ 可以通过如下的方式进行计算：

Overall Loss：

MCN 总体的损失函数可以通过如下的方式进行计算：

Experimental Results：