前列腺分割论文

Deeply-Supervised CNN for Prostate Segmentation

(用于前列腺分割的深度监督CNN)
原文链接

摘要

磁共振（MR）图像中的前列腺分割在图像引导下的介入治疗中具有重要意义。然而，由于缺乏明确的顶端和底部边界，以及来自不同患者的图像之间形状和纹理的巨大变化，使得这项任务非常具有挑战性。为了克服这些问题，本文提出了一种利用卷积信息从磁共振图像中精确分割前列腺的深度监督卷积神经网络（CNN）。与其他方法相比，该模型能有效地检测前列腺区域，并具有附加的深度监控层。由于某些信息在卷积后会被丢弃，因此有必要将早期提取的特征传递到后期。实验结果表明，与其他方法相比，本文提出的方法能显著提高分割精度。

引言

近年来，卷积神经网络（CNN）在计算机视觉和医学图像分析等许多领域都取得了最佳的效果。这一成功有以下几个方面：1）开发了更强大的图形处理单元（GPU）；2）大量可用数据，例如，在ImageNet大规模视觉识别挑战（ILSVRC）中，提供了约120万张带注释的图像。3）许多网络都已经为特定的任务设计出来，例如分类、分割和对象检测。CNN的核心能力是学习数据的层次表示，因此调整网络结构以提高网络的层次表示能力是CNN应用的主要目标。

分类是CNN中最常见的应用，如GoogLeNet、VGG-Net，其输出是图像的类标签。然而，在许多视觉任务中，特别是在医学图像分析中，一些特定的需要必须被满足。例如，在医学图像分割中，标签应该分配给每个像素，并且结果应该具有高精度。随着深度学习的深入发展，越来越多的研究者将这些方法应用于不同的医学图像应用，如图像分割、图像融合、图像配准和计算机辅助诊断等。自动分割是医学图像分析的支柱之一。在给定的背景下对边缘检测的高度依赖于是成功分割医学图像的关键。因此，在许多方法中，获取边缘特征并搜索其位置是主要工作。几十年来，构建有效的特征工程一直是医学图像分割的主流课题。例如， Shen et al提出了基于几何矩不变量的特征引导非刚性图像配准方法，同时，Liao et al. 提出了一种医学图像分析中自动特征提取的表示学习方法，提出了一种基于叠置相关子空间分析（ISA）的深度学习框架，实现了从输入图像中自动学习信息量最大的特征。此外，基于形状的模型被广泛应用于图像分割。Yan et al 提出了一种利用部分轮廓的先验形状分割前列腺的方法。 Toth et al 利用强度和梯度信息构建AAA模型，然后利用水平集方法对前列腺MRI进行分割。所有这些方法都是利用特定的特征信息对医学图像进行分割。然而，正如我们前面所描述的，深度学习具有从数据中学习分层特征表示的良好能力，并且在各种应用中都取得了破纪录的性能。在医学图像分析方面，它高度依赖于边缘检测技术。许多方法的主要工作是寻找组织的边缘。而我们知道，深度学习可以有效地学习边缘特征。因此，我们相信深度学习可以像计算机视觉一样，在医学图像分析方面取得很大的进步。许多研究人员将深度学习应用于医学图像分析。例如，Zhang et al建议使用深度卷积神经网络（CNN）用多模态磁共振图像分割等强度阶段脑组织。Cheng et al提出了一种监督机器学习模型，该模型利用基于Atlas的主动外观模型和深度学习模型在磁共振图像上分割前列腺。Chen et al提出了一种深度轮廓敏感网络，它集成多层次的上下文特征来分割腺体。这些方法都利用了深度学习的先进性，取得了显著的成绩。

许多网络应用斑点(patch)到像素或斑点到斑点的策略来训练和预测。然而，这种策略总是导致训练和预测效率显著降低。全卷积神经网络（FCN）提供了一种将使用一张有一张图像的方法训练网络，使我们能够同时训练大量的样本。然而，我们不能直接将FCN应用于前列腺分割。由于前列腺顶端和底部一直缺乏明确的边界，不同患者的体形和质地差异很大。这些现象使前列腺分割变得富有挑战性。在这些方法的启发下，结合深度学习的优越性，提出了一种将将早期特征提取传递到后期的网络，以避免信息丢失。我们将该网络命名为“深度监控CNN”，该网络经过端到端的训练，能够准确、快速地在磁共振图像上分割前列腺。我们的网络有三个阶段，第一个阶段包括一个压缩路径，它从数据中提取特征，并以适当的步幅降低分辨率。网络的第二阶段由一条扩展路径组成，该路径向上采样特征图，并将特征通道数减半，直到达到其原始大小。为了帮助网络学习更精确的残差信息，第三阶段由深层监控层构建，对训练过程进行监控。

方法

A U-Net
U-Net的架构如下

这包括两部分，网络的左侧分为四个阶段。每个阶段由两个卷积层组成，处理不同的分辨率特征图。左半部分执行的卷积使用3x3个内核，每个内核后面都有一个校正的线性单元（relu）。在每个阶段结束时，一个步长为2的，卷积核为2x2最大池操作进行向下采样。每个阶段后，特征通道的数量增加了一倍。网络的右侧也分为四个阶段，并且与左边部分相似。右部分的每个阶段包括两种操作。第一种是上采样，使特征地图的大小逐渐增大，直至达到原始输入图像的大小。第二个操作是将特征信道的数目减半，这样卷积核的数目在每一阶段之后就会减半。由于每次卷积后都会丢失一些图像信息，因此有必要从左侧的早期提起特征传递到右边部分。为了实现这一功能，作者将左侧部分与右侧部分连接起来。这样，网络可以获得一些细节，否则在卷积过程中会丢失这些细节。这将提高最终轮廓预测的质量。此外，这些连接将加速网络的收敛。

B-受深度监督的CNN

网络架构。在本节中，我们将详细介绍所提议的网络体系结构。正如vgnet所证明的，表示深度有利于分类的准确性。为了获得更高的准确度，有利于利用更深层的网络分割前列腺图像。然而，更深层次的网络也带来了两个瓶颈。首先，更深的网络通常意味着更多的参数，这使得网络更容易过度拟合，特别是对于医学图像的应用，因为在训练集中标记的示例的数量总是有限的。深层网络的另一个瓶颈是计算资源的使用急剧增加。为了解决这个问题，我们建议在卷积过程中使用1X1卷积层。1X1卷积有两个主要优点。一方面可以减小网络的维数和参数个数，在一定程度上消除计算瓶颈；另一方面可以增加网络的深度，提高字符表示的能力。在我们的网络中，我们在多个阶段应用了1X1卷积，以提高分割的准确性。如GoogLeNet所示，较小的卷积核在二维网络中效率更高，较小的卷积核可以获得与大核相同的效果。结果表明，堆积小核的有效接收场大小等于一个大核的有效接收场大小。此外，较小的卷积核可以减少参数数量，同时消除计算瓶颈。所以在我们的网络中，卷积核的大小都设置为3x3。此外，池化操作对改善最先进的卷积网络具有重要意义，在一定程度上有助于克服过拟合，因此我们在每个阶段的末尾都增加了该阶段。

如上所述，卷积运算总是会导致图像信息丢失。通过将从早期阶段提取的特征传递到后期阶段，可以为后期阶段提供丢失的信息。最后，可以提高最终预测的效果。但是，这仍然会留下一些有待改进的空间。当我们将特征从早期阶段向前推进到后期阶段时，由于缺乏深入的监督，在隐藏层产生的特征在语义上的意义就不那么明显了。更重要的是，它们将显著影响训练和预测效率。为了克服这些问题，我们在网络中添加了八个深度监控层。在训练过程中，所有这些监督层都对训练过程进行监督。有时，由于网络的深度很大，因此以有效的方式将梯度传播回所有层的能力是一个值得关注的问题。附加的监控层可以通过保留早期的梯度很好地解决这个问题。

综上所述，所提议的网络包含三个部分，如图所示

前五个阶段组成一个压缩路径，该压缩路径从数据中提取特征，并以适当的步幅降低分辨率。从顶部到第四阶段，每一阶段的特征通道数量翻了一倍。在第一阶段，特征通道的数量是64个，例如，经过四个阶段后，特征通道的数量增加到512个。在每个阶段中，我们执行两个3x3卷积，一个1x1卷积和一个2x2且步长为2的最大池化操作进行下采样。相反，后面的四个阶段由一个扩展路径组成，该路径对特征映射进行向上采样，并将特征通道的数量减半，直到达到其原始大小。除了最大池化操作外，这些阶段的操作与压缩路径中的阶段相同。在监督层部分，每个监督层由一个上采样层和一个反卷积层组成。上采样层对特征图进行上采样，然后通过反卷积层得到分割结果。在训练过程中，这些监控层根据分割结果与真实情况的差异来控制训练过程。与原U-Net相比，该网络具有一定的优越性。例如，1X1卷积使网络变得更深，也不会陷入计算困难。而最大池化操作对于改进最先进的卷积网络和克服过度拟合具有重要意义。此外，附加的深度监督层使得残余信息具有意义，提高了模型的收敛效率。

2）公式化。
我们将输入训练数据集表示为 (S = {(X_n, Y_n), n = 1, ..., N}) ，其中$ Xn = x^n_j, j = 1, ..., |X_n| (表示原始输入图像。)Y_n = {y^n_j, j = 1, ..., |X_n|}(表示图像)X_n(对应的真实二值边缘图。为了简单起见，我们将所有网络层的参数表示为)W(。在深监督层中，相应的权重表示为)w = {w^1,...,w^m}$，其中m表示深层监督层的数量，在我们的方法中，m=8。我们使用的目标函数为

[L_{supervised}(W, w) = sum_{i=1}^m alpha_i l^i_{supervised}(W, w^i) ]

其中，(l_{supervised})表示深监控层输出的图像级损失函数

对于前列腺图像，感兴趣的解剖结构只占扫描的一个很小的区域。这往往导致网络忽略了分割部分，网络的输出对背景有很大偏差，学习过程陷入局部极小，最终无法得到准确的结果。为了避免这个问题，本文采用dice 系数作为目标函数，其范围在0到1之间。两个图像之间的dice系数（dsc）可以写为

[DSC(S_a, S_m) = frac{2 |S_a cap S_m|}{|S_a| + |S_m|} ]

其中，(S_a)自动分割的形状，(S_m)表示人工分割形状。在我们的工作中，实际结果和分割结果都是二值图像，因此两个二值图像之间的dice系数DSC可以写为

[DSC = frac{2sum_i^N p_iq_i}{sum_i^Np_i^2 + sum_i^N q_i^2} ]

其中，N表示图像像素的总数。(p_i)和(q_i)分别表示真实结果和分割结果

在我们的方法中应用这个公式，我们不需要平衡前景和背景像素之间的样本数量。除了监控层之外，我们还应该考虑最终的输出。把所有的损失放在一起，我们应该通过标准随机梯度下降最小化以下目标函数

[(W, w) = argmin(L_{supervised}(W, w) + L(W, w)) ]

其中，(L(W, w))表示最终输出的损失函数

结论

我们的研究结果似乎提供了一个可靠的证据，证明在训练过程中采用一种深度监督的方法是提高神经网络对医学图像分割性能的有效方法。在训练过程中，所有这些监督层将监督训练过程，减少前列腺信息的丢失。在训练过程中，额外的监督层对网络进行了强有力的约束。这些监控层可以解决前列腺内外模糊边界和像素强度分布不均匀的问题。另外，由于网络规模较大，附加的监控层可以为早期阶段提供梯度信息，解决梯度扩散问题。

本文提出了一种利用残差信息对前列腺MRI进行精确分割的深度监控CNN。与传统的U-Net相比，采用1x1卷积的方法后，该网络的深度更大，参数数目不会同时增加。而附加的深度监督在网络训练中起着监督作用。这些监控层在训练过程中可以在一定程度上避免像素信息的丢失。对于前列腺图像，背景和前景像素的数量是相当不平衡的。因此，网络忽略了分割部分，网络输出对背景有很大的偏向。这总是导致学习过程陷入局部极小，最终无法得到准确的结果。为了解决这个问题，我们将dice系数作为目标函数。结果表明，该网络提高了前列腺分割的性能