The Perception-Distortion Tradeoff【阅读笔记】

　　证明了distortion和perceptual quality之间是矛盾的，并且存在一条tradeoff曲线。所有图像复原类任务的表现只能逼近这个曲线。

　　distortion：指的是重建图像$widehat{x}$与原图像$x$之间的不相似度

　　perceptual quality：仅指$widehat{x}$的图像质量，与原图像无关。或者说是指$widehat{x}$与真实图像的相似程度，实际上是与重建图像的分布和真实图像的分布的距离有关。

　　目前比较常用的衡量方法：在衡量distortion中使用的是full-reference方法，比如MSE， SSIM， MS-SSIM， IFC， VIF， VSNR， FSIM等；在percepual quality方面有human opinion score， no-reference方法（DIIVINE， BRISQUE， BLIINDS-II， NIQE）， GAN-based。

　　作者证明了perception和distortion之间存在下面这样的一条曲线，并且左下角的区域是任何算法都无法达到的。一些一味注重优化distortion的算法可能既不有效又损害视觉质量（在曲线的右上方区域），说明了GAN方法的有效性（去逼近这个bound）。对于不同的领域应该有不同的侧重点，比如对于医学领域可能会更注重distortion accuracy，即与原图像的接近程度。这个图像也指导给出了一个新的衡量算法的方法，将算法的表现绘制到该坐标轴上（同时考虑perceptual quality和distortion）

问题定义：

　　文章首先证明了最小化平均distortion并不一定会导致a low perceptual quality index。作者首先以MSE和MAP为例，说明了使用这两种方式进行复原的图像分布不一定等于原分布。虽然MAP在某些条件下$p_widehat{x}=p_x$成立，但我们需要的是一个stable distribution peserving distortion measure，即对每一个$p_{x, y}$都成立。作者证明了这样的衡量标准是不存在的，并在附录中给出了相关证明。

　　由于这样的stably distribution preserving的衡量方法并不存在，因此low distortion不一定会导致好的perception quality。那么我们可以找到在某一个distortion level下的最佳perceptual quality吗？

　　这样的任务可以被定义为：$P(D)=min_{p_{widehat{x}|y}}d(p_x, p_widehat{x}), s.t. E[ riangle(x, widehat{x})]leq D$。作者以选择了distortion为MSE， $d(cdot, cdot)$为KL divergence为例子，进行了实验，绘制除了下面这样的曲线。在这个曲线中，$D$增大， $P(D)$减小。曲线为convex并且对于更大的噪声现象更严重。

　　作者指出虽然这个任务很难进行分析，但上面例子的现象普遍存在，并在附录中给出了一定的证明。并且不是所有的distortion measure都有相同的tradeoff function。对于一些捕捉了图像间语义关系的衡量方法，这个现象是less severe的。

　　定理：如果$d(p, q)$对于他的第二个参数是convex的(对任意的$p, q_1, q_2, lambdain[0, 1]$有$d(p, lambda q_1+(1-lambda)q_2)leqlambda d(p, q_1)+(1-lambda)d(p, q_2)$)，那么$P(D)$是monotonically non-increasing且convex的。这条定理中的假设$d(p, q)$是convex的条件并不是非常严苛，即使没有这个条件$P(D)$也是monotonically non-increasing的。

　　那么如何可以使一个算法逼近这个界限呢？

　　我们定义图像复原任务中可以达到的最小的distortion为$D_{min}=min_{p_{widehat{X}|Y}}E[ riangle(X, widehat{X})]$，此时的estimator一般都是非distribution preserving的。于是作者考虑当estimator有最佳的视觉质量时可以达到的最小的distortion，将其定义为$D_{max}=min_{p_{widehat{X}|Y}}E[ riangle(X, widehat{X})] s.t. p_{widehat{X}}=p_X$作者证明，存在下面一条定理：

　　对于MSE$ riangle(X, widehat{X})=||widehat{X}-X||^2$, $D_{max}leq2D_{min}$。也就是说对于MSE来说，最多只需要牺牲3dB的PSNR来达到最佳的视觉效果。

　　实际上使用GAN方法就是一个systematic way来设计estimator逼近这个界限。如果将GAN中生成器的loss改为$l_{gen}=l_{distortion}+lambda l_{adv}$.由于$l_{adv}$是与$d(p_x, p_{widehat{x}})$成比例的，所以实际上$l_{gen}approx E[ riangle(x, widehat{x})]+lambda d(p_x, p_{widehat{x}})$.将$lambda$视为拉格朗日算子，那么最小化$l_{gen}$就相当于最小化了$D$，调整$lambda$也调整了$D$，从而是在perception-distortion曲线上产生estimator。

　　基于以上的发现，作者提出评价一个图像复原算法的新的标准，也就是考虑算法在perception-distortion曲线中的位置。当算法A比算法B有更好的视觉质量且更少的distortion时，称算法A dominate B。当一组算法中没有算法dominate算法A时，称A为这组算法中可接受的算法。

　　作者在实验中选择了no-reference的方法NIQE来衡量图像的视觉质量，考虑了五种FR metrics来评价distortion（RMSE， SSIM， MS-SSIM， IFC， VIF），再加上一个$VGG_{2,2}$将一些目前SR领域常用的算法绘制到perception-distortion plane上。结果如下：

　　得到了以下一些结论：

左下角都是不可达的
在接近左下角不可达的区域，NR和FR metrics都是anti-correlated的，这表明了perception和distortion之间存在一个tradeoff。这个tradeoff即使在一些能捕捉视觉质量的评价标准中也存在。
通过计算FR和NR与human opinion score的相关性。FR在远离不可达区域时与视觉质量有较好的相关性， NR方法则总是有较好的相关性。SRGAN在perceptual quality方面是最好的。

　　作者认为，在图像复原类算法中都应该同时用一对FR和NR方法，既保证perceptual quality又保证distortion。