Transparent Composite Model for DCT Coefficients: Design and Analysis 阅读笔记

Abstract

  基于Kullback-Leibler散度和χ2检验的实验结果表明,对于实值连续交流系数(real-valued continuous ac coefficients),基于截断拉普拉斯算子的TCM提供了模型精度和复杂度之间的最佳权衡。对于离散整数DCT系数,基于截断几何分布的离散TCM(GMTCM)在大多数情况下比纯拉普拉斯模型和广义高斯模型更准确地模拟交流系数,同时具有类似于纯拉普拉斯模型的简单性和实用性。      

  此外,还证明了GMTCM还具有良好的数据简化或特征提取能力 - 由GMTCM识别的重尾线中的DCT系数确实是异常值,这些异常值代表了一个异常值的图像,揭示了图像一些独特的全局特征。总体而言,GMTCM的模型性能和数据缩减功能使其成为现实世界图像或视频应用中离散或整数DCT系数建模的理想选择,我们在量化设计、熵编码、图像理解和处理的一些进一步研究中总结了这一点

I. INTRODUCTION

  从早期的JPEG到最近在HEVC中的应用,最新的视频编码标准离散余弦变换(DCT)已广泛应用于数字信号处理(DSP),特别是在有损图像/视频编码中。 因此,在过去几十年中,它已经吸引了很多人来理解DCT系数的统计分布(参见,例如,[1],[5],[8]和[10],以及其中的参考文献)。 深入准确地理解DCT系数的分布对于压缩[13],压缩率(rate)控制[8]和图像理解[1],[14]是有用的。
  在文献中,拉普拉斯分布,柯西分布,高斯分布,它们的混合和广义高斯(GG)分布都被建议用于模拟DCT系数的分布([2],[5],[10])。根据所使用的实际图像数据源以及平衡建模精度和模型简单性/实用性的需要,这些模型中的每一个都可能在某种程度上适用于某些特定应用。一般来说,人们认为在建模精度方面,具有形状参数(shape parameter)和尺度参数(scale parameter)的GG分布可以获得最佳的建模精度[2],[10]。然而,GG分布的参数估计是困难的,因此GG模型的应用特别是在线应用的适用性可能是有限的。另一方面,已经发现拉普拉斯模型在复杂性和建模精度之间很好地平衡,它已被广泛应用于图像和视频编码[13],尽管其建模精度明显低于GG模型[2]。
  拉普拉斯分布和GG分布均以指数方式快速衰减。 然而,在许多情况下,观察到DCT系数具有相对较重的尾部,其不能通过指数衰减函数有效地建模(参见第II-C节以进行说明和详细讨论)。 实际上,对尾部建模的改进可以带来更好的编码性能,如视频编码中的[8]所示。 然而,Cauchy模型没有有效地模拟DCT系数的主要部分。 因此,除了平衡建模精度和模型的简单性/实用性之外,DCT系数的良好模型还需要平衡DCT系数的主要部分和尾部。
  在本文中,我们提出了一个名为透明复合模型(TCM)的新模型,该模型对重尾进行增强建模,并且还展现了非线性数据压缩能力。具体而言,DCT系数的尾部通过均匀分建模,与DCT系数的主要部分分开建模,而主要部分则由不同的参数分布建模。该复合模型引入了边界参数来控制哪个模型用于任何给定的DCT系数;它被称为透明的(transparent)是因为一旦确定了TCM,给定的DCT系数将落入哪个模型(均匀或参数)是确定的。可以通过最大似然(ML)估计来估计TCM的分离边界和其他参数。我们进一步提出了有效的在线算法并证明了它们的全局收敛性。
  实验结果表明,对于实值连续交流系数,基于拉普拉斯分布的TCM在建模精度方面与纯GG模型匹配,但其简洁性和实用性与纯拉普拉斯模型相似。另一方面,对于主要在DCT的实际应用中看到的离散/整数DCT系数,基于截断几何分布的离散TCM(GMTCM)在大多数情况下比纯拉普拉斯模型和GG模型更准确地模拟AC系数同时具有与纯拉普拉斯模型类似的简单性和实用性。此外,还证明了GMTCM还具有良好的特征提取/数据压缩能力,这对于大规模图像/视频数据处理系统的可操作性和可扩展性至关重要。
  常见的数据压缩技术包括转换(transformation),如[18]中的主成分分析(PCA,principal component analysis),它与数据建模分开进行。然而,提出的TCM自然会导致数据减少。也就是说,一方面,由GMTCM识别的重尾数据确实是异常值,这些异常值代表了一个异常值图像,揭示了图像的一些独特的全局特征;另一方面异常值图像仅包含原始数据的统计上不显着的部分(约1%),从而实现显着的数据压缩。因此,提出的TCM为DCT系数的理论建模和数据压缩提供了统一的解决方案。本研究的初步结果部分呈现在其会议版本[19]中。
  本文的其余部分安排如下。 第二节讨论了各种模型的背景和DCT系数中的重尾现象。 连续TCM和离散TCM分别在第III节和第IV节中给出。 第五部分显示了TCM对建模准确性的实验结果,随后在第六部分讨论了应用TCM。 最后,第七节总结了这篇论文。 

II. DCT MODELS AND THE HEAVY TAIL PHENOMENON

  本节首先回顾了测试建模精度的三个指标,然后对DCT系数建模文献中的相关研究进行了调查。 然后我们讨论DCT系数中的重尾现象。

A. Measurement for Modeling Accuracy

  在文献中通常使用三种方法来测试建模精度,即Kolmogorov-Smirnov(KS)检验,Kullback-Leibler(KL)[12]散度和χ2检验[2]。通常,KS测试对主要部分比对尾部更敏感。 另一方面,χ2检验比KS检验更关注尾部。通过对对数的使用所示,就平衡主要部分的精度和尾部的精度而言,KL散度位于KS和χ2检验的中间。(The KL divergence, as shown by its use of logarithm, stands in the middle of KS and χ2 test in terms of balancing between the fitness of the main portion and the fitness of the tail part.)

  与[2]类似,本文优先考虑χ2检验而不KS检验来测量建模精度。 除了[2]中提供的使用χ2检验而不是KS检验的正确性,因为χ2对源编码提供了更有意义的指导,我们的偏好也源于DCT系数的重尾现象。 具体而言,χ2检验更好地表征分布中统计上不显着的尾部,而KS检验往往忽略尾部。 在下文中,对于重尾现象存在更详细的讨论。 除了使用χ2检验外,我们还使用KL散度来比较建模精度,因为它平衡了侧重主要部分的KS检验和侧重尾部的χ2检验。

  给定一系列样本概率{pi}和一系列模型概率{qi},模型与观测结果的KL散度是

  [KL = sumlimits_i {{p_i}ln frac{{{p_i}}}{{{q_i}}}} ]

  其中 0ln0 定义为 0 ,χ2检验定义为

  [{chi ^2} = sumlimits_i {frac{{n{{({p_i} - {q_i})}^2}}}{{{q_i}}}} ]

  其中 n 是样本的总数。

B. Models in the Literature for DCT Coefficients

   1) Gaussian Distributions:

  高斯分布广泛用于模拟DCT系数[1],其正则根源于中心极限定理(CLT)[12]。( Gaussian distributions are widely used for modeling DCT coefficients [1], and its justification roots in the central limit theorem (CLT)) 在[9]中研究了基于高斯概率密度函数的一系列较为全面的概率分布(a comprehensive collection of distributions)。然而,观察到自然图像/视频的DCT系数通常具有比高斯分布更重的尾部[2]。 因此,建议使用广义高斯分布来建模DCT系数。

  2) Generalized Gaussian Distributions:

  用于模拟DCT数据的具有零均值的广义高斯分布(GGD)的概率密度函数(pdf)如下,

  [f(y) = frac{eta }{{2alpha Gamma (1/eta )}}{e^{ - {{(|y|/alpha )}^eta }}}]

  其中α是正比例参数(positive scale parameter),β是正形状参数(positive shape parameter),分母中是gamma函数。

  很容易看出,当β= 1时,GGD退化为拉普拉斯分布。 当β= 2时,它变为具有方差α2/ 2的高斯分布。 通过自由选择尺度参数α和形状参数β,GGD展现了一种有效的方法来参数化从高斯到均匀分布的一族对称分布,以及从拉普拉斯分布到高斯分布的一族对称分布。如上所述 ,DCT系数分布具有重尾。 在这方面,GGD允许:β<2时比高斯尾部更重的尾部,β<1时比拉普拉斯尾部更重的尾部,或者β> 2时比高斯尾部更轻的尾部。(In this regard, the GGD allows for either heavier-thanGaussian tails with β<2, heavier-than-Laplacian tails with β<1, or lighter-than-Gaussian tails with β>2.)因此,GG模型在模拟DCT系数的建模精度方面一般优于高斯和拉普拉斯模型。

  然而,GG模型精确建模的好处带来了一些不可避免的缺点:缺乏封闭形式的累积分布函数(cdf)和参数估计的高复杂性。 如[2]所示,β的最大似然估计是求解以下等式,

  [frac{{Psi (1/eta  + 1) + log(eta )}}{{{eta ^2}}} + frac{1}{{{eta ^2}}}log (frac{1}{n}sumlimits_{i = 1}^n {{{left| {{Y_i}} ight|}^eta }} ) - frac{{sum olimits_{i = 1}^n {{{left| {{Y_i}} ight|}^eta }log } left| {{Y_i}} ight|}}{{eta sum olimits_{i = 1}^n {{{left| {{Y_i}} ight|}^eta }} }} = 0]

  其中

  [Psi ( au ) = gamma  + int_0^1 {(1 - {t^{ au  - 1}}){{(1 - t)}^{ - 1}}dt} ]

  [gamma  = 0.577...]表示欧拉常数

  显然,当数值迭代求解β时,[{sum olimits_{i = 1}^n {{{left| {{Y_i}} ight|}^eta }log } left| {{Y_i}} ight|}]和[{sum olimits_{i = 1}^n {{{left| {{Y_i}} ight|}^eta }} }]会产生大量的计算量。

  3)Laplacian Distributions:

  由于其简单性和相当的建模性能,拉普拉斯模型成为最受欢迎的使用选择[10],[11],其pdf如下,[f(y) = frac{1}{{2lambda }}{e^{ - left( {left| y ight|/lambda } ight)}}]

  其 中λ为正比例参数(positive scale parameter)。给定一系列样本Y,i=1,...,n,则λ的最大似然估计可以简单地用下式计算[lambda  = frac{1}{n}sumlimits_{i = 1}^n {left| {{Y_i}} ight|} ]

  4)Other Distributions:

  在DCT建模的文献中研究了其他分布[6] - [9],这些分布的灵感来自于DCT系数的重尾观测。 一个有趣的分布是Cauchy分布[8],[f(y) = frac{r}{pi }frac{1}{{{{(y - {y_0})}^2} + {r^2}}}]

  其中y0是位置参数,r代表比例参数。 我们对Cauchy模型与GGD进行比较的研究表明,GGD通常比Cauchy模型提供更好的拟合优势(参见第V节)。 此外,Cauchy分布的应用也受到限制,due to the fact that it does not have finite moments of any order,导致其参数估计的困难。

C. Heavy Tail Observations

  拉普拉斯分布,高斯分布和GG分布都以指数方式快速衰减。 然而,如图1所示,DCT系数通常具有更重的尾部。 图1是通过将浮点II型8×8DCT应用于众所周知的512×512 Lenna图像而获得的,其中黄色条表示DCT系数的直方图。 从图1中可以明显看出,对于DCT系数的主要部分,DCT系数的直方图首先相当快地衰减,然后对于DCT系数的尾部变得相对平缓。

  

  图1的下图放大尾部并进一步比较DCT系数与GG和拉普拉斯模型的直方图,其中黄色条依然代表DCT系数的直方图,红色和黑色曲线分别显示GG模型和拉普拉斯模型的结果。在图1中,GG模型参数的ML估计是通过[14]的Matlab代码计算的,而拉普拉斯模型的λ值是用(2.6)计算的。对于这两种模型,进行χ2测试以评估它们各自的建模精度。根据χ2检验,GG模型显着优于拉普拉斯模型。此外,在图1中,所获得的形状参数β远小于1,这意味着所得到的GG分布具有比拉普拉斯分布更重的尾部。然而,与图1中所示的实际数据直方图相比,GG模型仍然受到指数有界尾部的影响,该尾部比DCT系数轻得多。

III. CONTINUOUS TRANSPARENT COMPOSITE MODEL

  为了更好地处理DCT数据中的重尾,我们现在将DCT系数的尾部与主要部分分开,并使用不同的模型对每个部分进行建模。 由于尾部的DCT系数在统计上是不重要的,每个系数经常会出现几次( Since DCT coefficients in the tail portion are insignificant statistically, eachofthem oftenappearsonceora few times)。 因此,通过均匀分布对它们进行单独建模是有意义的,同时通过参数分布对主要部分进行建模,我们将模型称为透明复合模型。在本节中,我们假设DCT数据是连续的并考虑连续的TCM。

A. Description of General Continuous TCMs

  

  f为pdf含参数theta,F为cdf,f在y方向关于原点对称,F在y>=0时是凹函数(上凸函数),容易验证Gaussian分布、GG分布、Laplacian分布、Cauchy分布都满足上述假设。

  a表示y的取值范围的最大值,a和d都假定是已知的。此外,标准分布1/2(a-yc)称为异常分布,来自异常分布的样本被认为是异常值。 

B. ML Estimate of TCM Parameters  

 

给定一系列DCT系数,计算yc,b,theta的最大似然估计

Im的定义是一系列的开区间

  sup表示上确界

  任一非空集合Ii (i>m),N1(yc)和N2(yc)相等,且yc属于Ii 时,N3(yc)为空。由于假定了F是一个凹函数,因此不难确定作为yc的函数, (−|N2(yc)|ln2(a − yc)− |N1(yc)|ln[2F(yc|θ)−1]) 是一个上凸函数,因此它的上界由Ii的端点值也就是yc = Wi 和 yc = Wi−1时的最大值来决定。因此有sup<=max。

  

详细见草稿纸

 

  根据算法1中的步骤6是否能够有效地实现,对不同的f(y |θ)算法1的计算复杂度各不相同。 对于某些参数族f(y |θ),如拉普拉斯分布,步骤6可以很容易地求解,因此算法1可以很好地实现。另外,当f(y |θ)是GG族时,步骤6非常复杂。在接下来的两个小节中,我们将在两种情况下考查步骤6:(1)f(y |θ)是拉普拉斯族,相应的TCM称为LPTCM; (2)f(y |θ)是GG族,相应的TCM称为GGTCM。

C. LPTCM

  

  算法2的步骤3计算的 λi严格递增并且以指数方式很快收敛到λyc

  

  

  

  将算法2插入到算法1中的步骤6中,然后得到了用于计算LPTCM中的(yc,b,λ)的ML估计的有效算法。为了说明LPTCM的有效性,将得到的算法应用于图1中的相同DCT系数。 图2示展示了在每种情况下LPTCM以及DCT系数的直方图。 从图2中可以清楚地看出,LPTCM很好地得到了DCT系数的直方图,并且在每种情况下都大大改进了拉普拉斯模型。 与拉普拉斯模型相比,它可以更好地处理主要部分和尾部部分。 就χ2值而言,它与GG模型匹配。 更详细的比较将在第五节中介绍。

D. GGTCM

  

  

  然而,与LPTCM的情况不同,求解(3.25)似乎并不容易。 特别是,在这一点上,我们不知道(3.25)是否有唯一解。 即使解是唯一的,也没有开发出具有全局收敛性的算法来求这个解。 因此,在GGTCM的情况下,算法1中的步骤6比LPTCM的情况复杂得多。 次优的替代方案是得出(3.25)的近似解。 一种方法是迭代地求解(3.25)中的两个方程。 与(3.25)的这个次优解决方案一起,算法1应用于图1中所示的相同DCT系数。 图2示出了在每种情况下总体上针对DCT系数的直方图的GMTCM。 我们注意到,由此产生的GGTCM略微改善了GG模型,这可能是由于(3.25)的次优解决方案。

IV. DISCRETE TRANSPARENT COMPOSITE MODEL

  在实践中(特别是在有损图像和视频编码中),DCT通常被设计和实现为从整数值空间(例如,8位像素)到另一个整数值空间的映射,并产生整数DCT系数。另外,由于大多数图像和视频以压缩格式(例如JPEG,H.264等)存储,对于基于压缩图像和视频的应用,DCT系数仅在其量化值中可用。因此,希望能够为离散(整数或量化)DCT系数建立良好的模型。

  本节提出了一个离散的TCM。我们将考虑的特定离散参数分布是截断的几何分布,得到的离散TCM被称为GMTCM。为了对整数和量化DCT系数提供均匀处理,我们引入了步长的量化因子(a quantization factor of step size)。然后,整数和量化的DCT系数都可以被视为整数乘以适当选择的步长。

 A. GMTCM

  

  

B. ML Estimate of GMTCM Parameters

  1)algorithms

  

  2) Convergence and Complexity Analysis

 

  计算GMTCM参数的ML估计的复杂性来自两部分。 第一部分是估计(4.3)一组K的上成本。第二部分是使用算法3计算每个K的λK。注意算法3中的C可以很容易地预先计算出K的可能值。因此,算法3的主要复杂性是根据指数收敛用较少的次数来估计(4.7)中的两个简单方程,这通常可以忽略不计。

  本质上,算法3的参数估计的主要复杂性是一次性收集数据直方图{hj,j = 1,...,a}。 与[2]中的GG参数估计的复杂性相比,如(2.4)所示,其中数据样本和要估计的参数紧密地联系在一起,如式[{sum olimits_{i = 1}^n {left| {{Y_i}} ight|} ^eta }log left| {{Y_i}} ight|]项和[eta {sum olimits_{i = 1}^n {left| {{Y_i}} ight|} ^eta }]项,GMTCM情况下参数估计的复杂度明显较低。

V. EXPERIMENTAL RESULTS ON TESTS OF MODELING ACCURACY

    

  本节介绍将TCM应用于连续和离散DCT系数的实验结果,并将其与拉普拉斯和GG模型的系数进行比较。 一般来说,拉普拉斯算子非常简单,易于应用,但具有较差的建模精度; GGD非常复杂,但提供了出色的建模精度。

A. Test Conditions and Test Materials

  

  

  

  

 

  

  

  

原文地址:https://www.cnblogs.com/Rainbow2015/p/9588189.html