A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

论文阅读：

A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

作者声明

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
原文链接：凤⭐尘》》https://www.cnblogs.com/phoenixash/p/15390699.html

基本信息

1.标题：A Semisupervised CRF Model for CNN-Based Semantic Segmentation With Sparse Ground Truth

2.作者：Luca Maggiolo, Diego Marcos , Gabriele Moser , Senior Member, IEEE, Sebastiano B. Serpico , Fellow, IEEE, and Devis Tuia , Senior Member, IEEE

3.作者单位：University of Genoa, Wageningen University, Ecole Polytechnique

4.发表期刊/会议：TGRS

5.发表时间：2021

6.原文链接：https://ieeexplore.ieee.org/document/9497318/

Abstract

卷积神经网络(CNNs)具有在学习相关特征的同时自动捕获语义信息的能力，是高分辨率(VHR)图像语义分割的新参考方法。然而，对于大多数监督方法来说，map精度取决于训练它们所用的真值(ground truth, GT)的数量和质量。密集数据标注的使用(即详细的、详尽的、像素级GT)允许获得有效的CNN模型，但通常意味着标注的工作量很大。在测试新方法的基准数据集中往往可以得到这种真值数据，但在土地覆盖应用的实际数据中却不能得到这种情况，因为只有稀疏的标注可能具有足够的成本效益。用这种不完整的真值图训练的CNN模型有平滑对象边界的倾向，因为它们从来没有在GT中精确地描绘出来。为了解决这些问题，我们提出利用CNN的中间激活特征，并部署半监督全连接条件随机场(CRF)。与使用相同稀疏标注的竞争对手相比，本文方法能够较好地填补在通常不可用的密集真值标注上训练的CNN的部分性能空白。

1.Introduction

如今，非常高分辨率(VHR)遥感图像已经达到了十进制或厘米的分辨率，从而使城市空间的高分辨率制图成为可能。卷积神经网络(cnn)代表了解决这类任务的新标准。最近的研究表明，基于全卷积cnn[2]，[3]的方法可以达到很高的逐像素级别精度，甚至可以重现被分割物体的正确形状。这是因为这类模型的上层可以捕获形状统计信息并将其注入输出映射中。然而，为了正确建模这些统计数据，CNN需要从稠密的准确地代表了所有对象的边界的真值(GT)中学习它们。尽管在基准数据集中可以使用这种细粒度的GT映射，但它们的创建是非常劳动密集型的;因此，密集的像素级GT在真实的映射应用程序中很少可用。更常见的是只有少量的注释可用于训练模型(见图1的左部)。这种情况下,用于训练的图片仅有部分标注,可以从semisupervised学习[4],[5]从获得提升,其中标记和未标记像素都被利用来解决任务。

在这项工作中，我们关注的是如何提高一个训练不完整的CNN，更容易获得的结果，例如，潦草的GT，从而陷入半监督设置。部分标注的gt具有不同的细节级别。第一类是最节省时间的，只提供图像级的标签(即场景中的一个类列表，没有任何位置信息[6])。这个场景可以放宽到更本地化但不完整的注释的情况，比如每个类[7]的单个像素位置，或者以手绘涂鸦[8]的形式的多个位置。我们提出了一种针对后一种情况的方法，旨在减轻稀疏标注训练集的影响，同时部分恢复物体形状。该方法基于一种新颖而高效的全连接条件随机场(CRF)的近似，通过聚类的中间节点来考虑长时间空间依赖关系。聚类阶段使用中间CNN特征，同时有利于低通滤波、高级语义和锐化边缘。关键思想是接受明显次优(即潦画的)训练集，并通过将其集成到一个概率图形模型中，尽可能多地利用CNN在所有层和激活过程中捕获的信息。

为了实验验证该方法，我们从著名的航空土地覆盖基准开始模拟潦草的标注。为了这个目的,我们运用形态学腐蚀和删除大部分注释对象(见图1)，下调他们的密集的真值标注。这种测试方法可以验证该方法的有效性和评估原始密集的真值的退化如何影响分类精度。

研究者们在会议论文[9]中发表了这项工作的初步介绍。我们在此进行了扩展，提供了深入的方法分析，并在另外一个数据集(波茨坦国际摄影测量和遥感学会（ISPRS）Potsdam)上添加了结果。

本文的组织如下。第二节回顾了CNN和CRF文献中之前的相关工作。在第三节中，我们提出了提出的模型的方法学公式。在第四节中，我们描述了数据集和实验设置，然后在第五节讨论其结果，最后在第六节得出结论。

2.Previous Work

A. Convolutional Neural Networks

cnn[10]，[11]是图像语义分割的新标准。与传统的特征工程相比，它们具有从数据中学习特征和学习下游任务的优点。在VHR像素级分割方面已有大量的文献。[12]-[15]第一次尝试使用滑动窗口进行推理，并将patch映射到单个标签(代表patch的中心像素)，从而通过每次生成一个像素生成整个类别映射。然而，这远远不够高效，限制了CNN自身在分类过程中对空间信息进行编码的能力。为了解决这个问题，发展出了不同的CNN架构，以便进行密集预测，即同时估计输入patch中包含的所有像素的分类标签。通过这种方式，网络隐式地编码了不同类之间的空间关系。示例包括通过插值对激活进行上采样[3]，全卷积模型[16]，[17]，以及学到的反卷积层[2]。在[18]中，模型甚至被训练来预测对象边界作为辅助任务。[20]和[21]的作者受到超柱模型[19]的启发，在多个尺度上叠加上采样激活，以训练其他层进行密集预测。

这部分文献证明了利用cnn进行遥感图像处理的机会，但也显示了一个重要的缺点;用于语义分割的cnn通常假定有大量标注的数据可用，而这些数据通常是不可用的。当CNN用不完整或潦草的真值进行训练时，得到的预测图通常几何保真度很差，特别是在目标边界附近，那里通常没有提供训练样本。这些真值不完全的案例被视为监督不完全的弱监督问题[22]。不同级别的不完整的标签已经被用于进行语义分割，如没有任何位置信息的图像级标签[23]、单点标签[7]或潦草的标签[8]、[24]、[25]。最近的大多数方法是通过在CNN[26]，[27]的训练中集成伪标签来解决GT的不完全性。相反，本文提出的方法既没有对CNN模型进行修改，也没有对训练中使用的数据进行修改。相反，该方法使用一种新的CRF模型来增强上下文信息，该模型近似完整的连通性，以考虑长期空间关系。在第二- b节中回顾了以前关于CRF建模的相关工作。

B. Conditional Random Fields

解决训练样本稀缺问题的一种方法是注入关于空间上下文信息的先验信息，通常使用图模型。CRFs[28]是一种概率图模型，它包含了基于观测变量的相邻像素之间的类交互的上下文信息[29][30]。CRF由能量函数决定，能量函数相对于标签的最小值提供了最大后验(MAP)解[29]。

利用一元和成对势的传统CRF公式的一个局限性是邻接结构不允许CRF捕获图像内的长程依赖。在一个VHR图像中，一个像素可以代表一个线性大小甚至等于5-10厘米的地面区域，所以寻找直接的邻居可能不能捕获足够的上下文。在文献中，为了解决受限邻域的问题，基本的CRF结构被扩展到包括层次连通性和定义在图像区域[31]-[34]上的高阶势。即使不同的模型显示出显著的进展[33]-[35]，所有这些方法的准确性都受到无监督图像分割过程的准确性的限制，该过程用于计算模型操作的区域。在[36]中，提出了一个适应不同空间支撑的模型，特别是关于像素和区域的模型。在这两层上估计的后验是用两层互连的CRF概率融合的。这个模型的输入可以是任何分类器的输出，它估计标签上的像素后验分布。在[37]中，CNN用于联合学习两个任务:语义分割和语义边界检测。然后，利用边界来确定CRF模型中的一对势。但是，这个模型需要一个具有精确边界的GT，对于上一节讨论的方法，我们认为不现实。

理想情况下，编码远程连接的替代方案是一个完全连接的CRF，该模型中每个像素都与图像的其他像素相连接[38]-[41]。这使得每个像素可以从整个图像的相似像素中收集信息，而不仅仅是从它自己的相邻像素中。全连接CRF建模的naïve方法将使用一个密集的NxN成对矩阵(N是总像素数)，这在内存和计算复杂性方面是不切实际的。

一种基于平均场近似[42]的有效方法已被证明是向理想的完全连通模型行为移动的有效方法。尽管如此，这种近似的复杂性与特征空间的维数是线性的，这使得它对于高维空间的使用是不切实际的，无论是与高光谱图像本身相关的还是从大量提取的特征中提取的。在这项工作中，我们通过利用网络中间层提取的高维特征来定义一个额外的结构来处理这一限制。