Video Super Resolution Based on Deep Learning A Comprehensive Survey 翻译

INTRODUCTION
BACKGROUND
VIDEO SUPER-RESOLUTION METHODS
METHODS WITH ALIGNMENT
- 运动估计和补偿方法
- 可变性卷积方法
METHODS WITHOUT ALIGNMENT

【摘要】近年来，深度学习在图像识别、自然语言处理、语音识别和视频超分辨率等领域取得了很大的进展。在这项调查中，我们全面调查了33个基于深度学习的最先进的视频超分辨率（VSR）方法。众所周知，利用视频帧中的信息对视频的超分辨率是非常重要的。因此，我们提出了一种分类法，并根据帧间信息的利用方式将这些方法分为六个子类。详细描述了各种方法的体系结构和实现细节。最后，我们总结并比较了有代表性的VSR方法在一些基准数据集上的性能。我们还讨论了一些需要VSR研究者进一步解决的挑战。据我们所知，这项工作是对VSR任务的首次系统回顾，有望为该领域的最新研究做出贡献，并有可能加深我们对基于深度学习的VSR技术的理解。

【关键字】视频超分辨，深度学习，卷积神经网络，帧间信息

INTRODUCTION

超分辨率（SR）的目的是从相应的低分辨率（LR）图像中恢复一幅或多幅高分辨率图像。它是计算机视觉和图像处理中一个经典而又富有挑战性的问题，在现实世界中有着广泛的应用，如医学图像重建[1]、人脸重建[2]、遥感[3]和全景视频超分辨率重建[4,5]、无人机监控[6]和高清电视[7]。
随着第五代移动通信技术的出现，较大尺寸的图像或视频可以在较短的时间内转换。同时，随着高清（HD）和超高清（UHD）显示设备的普及，超分辨率显示越来越受到人们的关注。

视频是人们日常生活中最常见的多媒体之一，因此对低分辨率视频的超分辨率处理显得尤为重要。一般来说，图像超分辨率方法一次处理一幅图像，而视频超分辨率算法一次处理多幅连续图像/帧，利用帧内关系对目标帧进行超分辨率处理。从广义上讲，视频超分辨率（VSR）可以看作是一类图像超分辨率，可以通过图像超分辨率算法逐帧进行处理。然而，SR的性能往往不尽如人意，因为可能会引入伪影和阻塞，从而导致帧内的时间一致性得不到保证。

近年来，许多视频超分辨率算法被提出。它们主要分为两类：传统方法和基于深度学习的方法。对于一些传统的方法，运动是简单地估计仿射模型如[8]。在文献[9,10]中，他们分别采用非局部均值和三维指导核回归进行视频超分辨率处理。Liu和Sun[11]提出了一种贝叶斯方法来同时估计基本运动、模糊核和噪声水平，并重建高分辨率帧。在[12]中，采用期望最大化（EM）方法估计模糊核，指导高分辨率帧的重建。然而，这些高分辨率视频的显式模型仍然不足以适应视频中的各种场景。

随着深度学习在各个领域的成功应用，基于深度学习的超分辨率算法得到了广泛的研究。基于深度神经网络的视频超分辨率方法有卷积神经网络（CNN）、生成对抗网络（GAN）和递归神经网络（RNN）。通常采用大量的低分辨率和高分辨率视频序列输入神经网络进行帧间对齐、特征提取/融合，然后产生低分辨率视频序列相对应的的高分辨率视频序列。大多数视频超分辨率方法的流水线主要包括一个对齐模块、一个特征提取与融合模块和一个重建模块，如[图1](#图1 基于深度学习的VSR任务的通用流程。需要注意的是，帧间对齐模块可以是传统方法，也可以是深度CNNs，而特征提取融合模块和上采样模块通常都使用深度CNNs。虚线框表示模块是可选的。)所示。由于深度神经网络的非线性学习能力，基于深度学习的方法通常能在许多公共基准数据集上获得良好的性能。

到目前为止，很少有关于视频超分辨任务的回顾，尽管有很多工作[13，14，15]关于单幅图像超分辨率的研究已经出版。 Daithankar和Ruikar [16]在基于频率空间域方法的视频超分辨上发表了简短的回顾文章，然而基于深度学习方法却很少提及。与以前的工作不同，我们提供了全面的深度学习技术研究近年来的视频超分辨率。视频超分辨率与图像超分辨率的主要差距在于处理帧间信息。如何有效利用相邻帧的信息对于VSR至关重要任务。我们专注于利用帧间的方式各种基于深度学习的方法的信息。

本文贡献主要总结如下：

我们回顾了基于深度学习的视频超分辨率技术的研究进展。据我们所知，这是第一次对基于深度学习的VSR方法进行全面的调查。
我们提出了一种基于深度学习的视频超分辨率方法的分类方法，对其帧间信息的利用方式进行了分类，并举例说明了如何利用该分类方法对现有方法进行分类。
我们总结了最新的方法在一些公共基准数据集上的性能。
我们进一步讨论了视频超分辨率任务的一些挑战和前景。

论文的其余部分组织如下。第二节简要介绍了视频超分辨率的背景。第三节展示了我们最近作品的分类法。在第四节和第五节中，我们根据分类法分别描述了有对齐和无对齐的视频超分辨率方法。在第六节中，对现有方法的性能进行了定量分析。第七节讨论了视频超分辨率技术面临的挑战和发展趋势。最后，我们在第八节结束这项工作。

Snipaste_2021-03-30_20-41-40

图1 基于深度学习的VSR任务的通用流程。需要注意的是，帧间对齐模块可以是传统方法，也可以是深度CNNs，而特征提取融合模块和上采样模块通常都使用深度CNNs。虚线框表示模块是可选的。

BACKGROUND

视频超分辨率源于图像超分辨率，它旨在从多个低分辨率帧中恢复高分辨率视频。然而，
视频和图像超分辨率之间的区别技术也很明显，即前者通常利用帧间信息。除了RGB颜色空间外，YUV还包括YCbCr颜色空间也广泛用于VSR。 (I_iin mathbb{R}^{H imes W imes 3})表示LR视频序列I中的第i帧，(widehat{I}_iin mathbb{R}^{sH imes sW imes 3})是相应的HR视频序列 $widehat{I}_i$ 的第i帧，其中s是缩放因子，例如s = 2、4或8。并且({widehat{I}_{j}}_{j=i-N}^{i+N})是一组相对于中心帧(widehat{I}_{i})有2N +1帧的HR帧，其中N是时间半径。然后HR视频序列的退化模型可以表示为：

[I_i=o (widehat{I}_i, {widehat{I}_j}_{i+N}^{j=i-N}; heta_ alpha ) qquad (1) ]

其中，(o (.;.))是退化模型函数，( heta_alpha)是如加噪、运动模糊、下采样的退化因子。多数现有工作中，例如[11、12、17、18]，常用的退化过程可表示为：

[I_j=DBE_{i ightarrow j}widehat{I}_i+n_j qquad (2) ]

其中，D和B分别对应下采样和模糊操作，(n_j)表示图像噪声，(E_{i ightarrow j})是基于从(widehat{I}_i)到(widehat{I}_j)运动的变形操作（warping operation）。

实际上，很容易获得LR图像序列I的第j帧，但是退化因素，可能非常复杂，或者可能是多种因素的结合，尚不得而知。与单图像超分辨率（SISR）不同在于，SISR解决单个降级图像，而VSR需要处理降级的视频序列，并恢复相应的HR视频序列，应为与参考视频（GT）非常接近。具体来说，VSR算法可以使用与SISR类似的技术来实现在处理单个帧（空间信息）的同时必须考虑帧之间的关系（时间信息）(s = i_i)来确保视频中的运动一致性。超分辨率过程，即等式（1）的逆过程，可以表述为：

[widetilde{I}_i=o^{-1}(I_i,{I_j}_{j=i-N}^{i+N}; heta_eta) qquad (3) ]

其中，(widetilde{I}_i)表示相对于GT的模型预测，( heta_eta)是模型参数。

与SISR一样，视频质量主要通过以下方式进行评估：峰值信噪比（PSNR）和结构相似性指数（SSIM）。它们分别衡量像素差异和两个之间的结构相似性。

VIDEO SUPER-RESOLUTION METHODS

由于视频是动态图像和声音的录制，用于视频超分辨率的方法从现有的单幅图像超分辨率方法中学习。有很多基于深度学习的图像超分辨率方法，例如SRCNN [53]，FSRCNN [54]，VDSR [55]，ESPCN [56]，RDN [57]，RCAN [58]，ZSSR [59]和SRGAN [60]。 2016年，基于SRCNN，Kappeler[20]提出了一种基于卷积神经网络的视频超分辨率方法VSRnet。到目前为止，很多
视频超分辨率算法已经提出。在下文中，我们总结了基于深度学习的视频超分辨率方法如表I所示。

表I 基于深度学习的现有视频超分辨率方法及其关键策略。在这里，MEMC是运动估计和运动补偿，DC是可变形卷积，3D Conv是3D卷积，并且RCNN表示递归卷积神经网络。

Snipaste_2021-03-31_10-55-08

关于视频超分辨率的几项研究，例如[37，44，39]已经表明信息的利用帧之间的差异极大地影响了性能。正确和适当地使用此类信息可以增强超分辨率的效果。因此，我们建立现有视频超分辨率的分类法方法根据自己的利用方式帧间信息，如图2所示。

Snipaste_2021-03-31_10-59-19

图2 关于现有SOTA视频超分辨率算法的分类法。在这里，MEMC代表运动估计和补偿方法，DC是可变形卷积方法，3D Conv是3D卷积RCNN表示基于递归卷积神经网络的方法。

如图2和表I所示，我们将现有的方法分为两个主要类别：对齐和不对齐的方法，根据视频帧是否明确对齐。我们将以下各节将详细介绍这些方法。

METHODS WITH ALIGNMENT

对齐方法通过在子序列重建之前，利用提取运动信息来使相邻帧与目标帧进行明确的对齐。并且这些方法主要使用运动估计和运动补偿（MEMC）或可变形卷积，这是两种常见的技术对齐框架。接下来，我们将介绍最新技术基于每种技术的详细方法。

运动估计和补偿方法

在用于视频超分辨率的对齐方法中，他们大多数都采用运动估计和运动补偿技术。具体来说，
运动估计的目的是提取帧间运动信息，运动补偿是根据帧间运动信息来实施帧间的变形在操作，使得一帧对齐另一帧。大多数运动估计技术由光流法[61]。此方法尝试计算通过两个相邻帧之间的运动时域中的相关性和变化。运动补偿方法可以分为两种类别：传统方法（例如LucasKanade [62]和Druleas [63]）和深度学习方法，例如FlowNet [61]，FlowNet 2.0 [64]和SpyNet [65]。

通常，光流法需要两帧（例如(I_i)和(I_j)）作为输入。一个是目标帧，另一个是相邻帧。然后光流法计算从(I_i)到(I_j)的光流(F_{i ightarrow j})的向量场，公式如下：

[F_{i ightarrow j}(h_{i ightarrow j}, v_{i ightarrow j})=ME(I_i,I_j; heta_{ME}) ]

其中，(h_{i ightarrow j})和(v_{i ightarrow j})是(F_{i ightarrow j})的水平和垂直分量，(ME(.))是计算光流的函数，( heta_{ME})是函数参数

运动补偿用于根据图像之间运动信息来执行图像变换，以使相邻帧与目标帧对齐。它可以通过一些方法来实现，例如双线性插值和空间变压器网络（STN）[66]。通常，补偿帧(I_j^{'})表示为：

[I_j^{'}=MC(I_i,F_{i ightarrow j}; heta_{MC}) ]

其中，(MC(.))是运动补偿函数，(I_i)是相邻帧，(F_{i ightarrow j})是光流法，( heta_{MC})是补偿函数参数。运动估计和运动补偿的示例如图3所示。下面，我们描述此类中的一些代表性方法。

Deep-DE:该模型有两个阶段，如图4所示。它首先通过调整TV-l1流[67，68]和运动细节保留（MDP）来生成一系列SR草图[69]。然后，SR草图和经过双三次插值的LR目标帧被引入CNN用于特征提取，融合和超分辨率。Deep-DE中的CNN由四个卷积层组成：前三层是常规卷积层，最后一层是反卷积层。它们的内核大小分别为11×11，1×1，3×3，25×25，通道数对应为256、512、1和1。
VSRnet：$VSRnet^2 $[20]是基于图像超分辨率算法SRCNN [53]，其网络架构如图5所示。VSRnet主要由运动估计和补偿模块组成，以及三个卷积层，除最后一个以外的其他每个卷积层后面是一个修正线性单元（ReLU）。 VSRnet和SRCNN之间的主要区别在于输入帧的数量。也就是说，SRCNN将单个帧作为输入，而VSRnet使用多个连续帧，这些帧是补偿帧。帧之间的运动信息由Druleas算法计算得出[63]。此外，VSRnet提出了一种滤波器对称实施（FSE）机制和自适应运动补偿机制，它们分别用于加速训练并减少不可靠的补偿帧的影响，从而可以提高视频超分辨率性能。
VESPCN:[21]提出了一种用于运动估计和补偿的空间运动补偿变换（MCT）模块。然后，将补偿后的帧放到一系列卷积层中，以进行特征提取和融合，如图6所示。最后，通过子像素卷积层获得超分辨率结果以进行上采样。 MCT模块采用CNN提取运动信息并执行运动补偿。 MCT使用从粗到精的方法来计算图像序列的光流。首先，在粗略估计阶段，网络将两个连续的帧（即，目标帧和相邻帧）作为输入。粗糙网络由5个卷积层和一个子像素卷积层组成。然后，它首先执行两次下采样操作两次，然后通过子像素卷积层执行第四次上采样操作，以获得粗略的光流估计结果。其次，根据光流使相邻的框架弯曲。在精细估计阶段，目标帧，邻近帧，在粗糙阶段计算出的光流和弯曲的邻近帧是精细网络的输入，精细网络的结构类似于粗糙网络。它首先进行2次下采样，然后在网络末端进行2次上采样以获得精细的光流。与粗糙的光流一起，将精细的光流用于获得最终的估计结果。最终，相邻的框架通过最终的光流再次弯曲，以使弯曲的框架与目标框架对齐。

Snipaste_2021-03-31_15-47-26

图3 运动估计和补偿的示例。请注意，最右边的小图像是（d）的图例。不同的颜色代表不同的运动方向，颜色的强度就是运动的范围。

Snipaste_2021-03-31_16-09-58

图4 Deep-DE的体系结构[19]。在这里，Motion Estim.是运动估计模块，Motion Comp.是一个运动补偿块，Conv是卷积层，而Deconv是卷积层。

Snipaste_2021-03-31_16-13-55

图5 VSRnet网络结构

Snipaste_2021-03-31_16-14-36

图6 VESPCN网络结构

DRVSR
RVSR
FRVSR
STTN
SOFVSR
TecoGAN
TOFlow
MMCNN
RBPN
MEMC-Net
RRCN
RTVSR
MultiBoot
MAFN
STARnet

可变性卷积方法

Dai等人在2017年首先提出了可变形卷积网络[79]，而改良版[80]在2019年提出。在普通的CNN中，框架通常是在每层中使用固定的几何结构，这限制了网络对几何变换进行建模的能力。相反，可变形卷积能够克服该限制。图22中显示了用于特征对齐的可变形卷积的图示。目标特征图与相邻特征图拼接，通过额外的卷积层获取偏移量。将偏移量应用于常规卷积核以生成可变形的卷积核，然后将其与输入特征图进行卷积以生成输出特征图。采用可变形卷积的方法主要包括增强型可变形视频恢复（EDVR）[37]，可变形非局部网络（DNLN）[38]和时间可变形对准网络（TDAN）[39]，它们详细描述如下。

Snipaste_2021-03-31_17-09-09

图22 可变性卷积用于帧对齐

EDVR
DNLN
TDAN
D3Dnet
VESR-Net

对齐方法的发展。在具有对准的方法中，运动估计和运动补偿技术MEMC作为计算机视觉中的经典研究主题，已在早期被应用于视频超分辨率。 MEMC具有广泛的应用，例如视频编码和增强隔行扫描。随着基于深度学习的VSR的到来，许多作品都采用MEMC来捕获帧之间的运动信息。 MEMC的早期工作是Deep-DE [19]，最近提出的一些方法，例如VESPCN [21]，SOFVSR [26]，TOFlow [28]和FRVSR [24]也采用了MEMC技术。具体来说，早期的视频超分辨率算法在VSRnet中采用传统的MEMC方法，例如Druleas [20]，而随后的算法（例如VESPCN [21]，TOFlow [28]和FRVSR [24]）则主要为MEMC设计子模块或子网。

但是，通常无法保证大多数MEMC方法的准确性。当亮度变化或视频在帧之间包含较大的运动时，VSR性能会急剧下降。因此，对变化的光照和运动条件不敏感的可变形卷积引起了研究人员的更多关注。 Dai等人提出了可变形卷积。 [79]增强了CNN对对象几何变化的转换建模能力。在VSR方法中，TDAN [39]首先利用它来执行帧间对齐。之后，DNLN [38]，EDVR [37]，STVSR [88]和D3Dnet [40]进一步将其用于帧对齐。然而，可变形卷积仍然具有一些缺点，包括高计算复杂度和苛刻的收敛条件。因此，该技术在未来的研究工作中有进一步改进的空间。

METHODS WITHOUT ALIGNMENT

待翻译...