No-Reference ImageQuality Assessment in the Spatial Domain【BRISQUE】【阅读笔记】

　　2012年的一篇文章，是NIQE评价指标的基础。在此之前NR IQA都是针对某个distortion的，需要预先知道对应的distortion。作者提出的BRISQUE（blind/referenceless image spatial quality evaluator）使用locally normalized luminance coefficients来衡量图片的“不自然”程度。不同于之前的NR IQA方法，他不需要转移到其他的坐标下，计算复杂度也低。

　　这个方法基于一个统计学上的发现。自然图像的归一化亮度值表现出很强的unit normal Gaussian的特性。

　　之所以使用归一化的亮度系数，是为了减小区域所产生的相关性，使其对于纹理没有很强的依赖性。文中将使用的亮度系数称为MSCN， mean subtracted contrast normalized coefficient:$widehat{I}(i, j) = frac{I(i, j)-mu(i, j)}{sigma(i, j)+C}, C=1$。其中$mu(i,j)=sum_{k=-K}^{K}sum_{l=-L}^{L}w_{k,l}I_{k,l}(i,j), sigma(i,j)=sqrt{sum_{k=-K}^{K}sum_{l=-L}^{L}w_{k,l}(I_{k,l}(i,j)-mu(i,j))^2}$

　　作者选取了一张自然图像对几个统计量进行可视化，可以看到MSCN表现出的是非常均匀的low-energy residual object boundaries。

　　作者认为MSCN系数刻画了由于distortion的存在而发生变化的statistical属性，不同的distortion会产生的变化不同，通过测量这些变化可以预测图像受到的distortion以及他的视觉质量。

　　一个generalized Gaussian distribution(GGD)可以有效捕捉a broader spectrum of distorted image statistics。GGD可以表示为：

　　$f(x;alpha, sigma^2)=frac{alpha}{2etaGamma(1/alpha)}exp(-(frac{|x|}{eta})^alpha), eta=sigmasqrt{frac{Gamma(1/alpha)}{Gamma(3/alpha)}}, Gamma(a)=int_0^infty t^{a-1}e^{-t}dt,a>0$

　　参数$alpha$控制分布的形状，$sigma^2$空智了variance。由于MSCN系数分布是对称的，所以选择了zero mean distribution。这两个参数通过"Estimation of shape parameter for generalized Gaussian distributions in subband decompositions of video"中提出的moment-matching based 方法进行估计，可以作为图片的第一组特征。

　　作者选取了Berkeley image segmentation database中的pristine image，并引入JPEG2000, JPEG, white noise, Gaussian blur和fast fading channel errors at varying degrees of severity五种distortion，幸成distorted image set。对这些图片估计他们的($alpha, sigma^2$)，绘制图像，可以发现不同的distortion呈现了不同的空间分布，其中white noise明显远离其他。

　　此外，作者还发现相邻像素之间的statistical关系也在一定程度上受到distortion的影响，因此对水平、垂直、两个对角线共四个方向的MSCN乘积进行建模。他们满足一个非对称的概率密度函数，但由于这个函数只有一个参数，不能为失真图像提供一个笔记号的fit，并且不是finite at the origin。因此实际使用时使用一个general asymmetric generalized Gaussian分布（AGGD）近似代替。AGGD的参数($ u, sigma_l^2, sigma_r^2$)可以通过"Multiscaled skewed heavy tailed model for texture anlysis"中提出的moment-matching based方法进行估计。最佳的AGGD fit的参数($eta, u, sigma_l^2, sigma_r^2$)当$eta=(eta_reta_l)frac{Gamma(frac{2}{ u})}{Gamma(frac{1}{ u})}$时取得。

　　因此，对于每一个方向$H, V, D_1, D_2$都要估计4个参数，共16个参数。这作为图片的第二组特征。

　　有研究表明，QA算法中考虑多尺度信息有利于提升与human perception 的关联性。因此在BRISQUE中最终选择原始图片和低分辨率图片（low pass filtered并2倍下采样，发现超过2倍没有效果提升），每张图片提取18个特征，共36个特征。

　　使用这些特征对图片质量进行评估时，需要使用一个regression module学习从特征空间到质量分的一个映射（任何regressor都可以），文中使用的时SVM regressor（SVR）。

　　实验

　　使用LIVE IQA数据集，其中包含29张reference图片和779张失真图像。包含了5中distortion：JPEG2000， JPEG， WN， Blur， FF。由于BRISQUE中的regressor需要训练，因此将数据集分为了80%用于训练，20%用于测试。随机重复1000次。

用SROCC和LCC计算各评价标准与DMOS的相关性。

测试了window size 对BRISQUE Mean SROCC的影响。

　　相对来说表现hi笔记稳定的，但当window size过大时会由于计算不再是local的而使表现下降。　　

虽然不同算法间的median correlations存在差异，但他们可能不是statistically relevant的。因此通过在SROCC值上进行t-test衡量算法之间的statistical significance。

　　BRISQUE仅仅劣于MSSSIM

用BRISQUE提取的特征训练分类器，说明这些特征可以用来对不同类型的distortion进行分类，并绘制了混淆矩阵。其中FF和JPEG2K，JPEG和JPEG2K是比较容易混淆的。

尝试将BRISQUE中特征直接映射到质量的部分替换为two-stage的。特征先映射到distortion再对应到distortion-specific QA。发现表现略微下降，可能原因是第一步中的imperfect distortion classification造成的。

作者说明了BRISQUE的表现不会受限于某个数据集。先将BRISQUE在整个LIVE IQA数据集上训练，再应用于TID2008.TID2008中包含了17种distortion，只选择训练过的5种。
Computational Complexity。每个图片只需要估计5次参数，因此BRISQUE非常高效。作者比较了几个方法的计算时间。

　　作者还将BRISQUE应用于Blind Image Denoising方法。用这些统计量估计噪声参数。具体训练方法是：首先使用受不同的noise variance影响的图片作为BS3D算法的输入，用MSSSIM评估BM3D得到的denoise图像的质量，并找到质量最佳的图片所对应的noise参数。将这些noise variance用于训练BRISQUE特征到这些noise-prediction parameter的映射。在测试时就可以预测level of input noise of BM3D来保证output有最佳的视觉质量。这样得到的结果要好于BM3D baseline。