CVPR2012文章阅读(1)What AreWe Looking For: Towards Statistical Modeling of Saccadic Eye Movements and Visual Saliency

  该文的基本假设从视觉注视点的统计分析得出。得出的基本假设为两点:1,显著性是非常稀疏的,也就是说大多数地方的显著值都是0,而只有图中的很小区域的显著值有很大的值;2,具有很大的显著值的区域的周围区域通常具有丰富结构信息。而超高斯(super-Gaussianity)分布刚好具有这两点特征。

  在统计学领域,通常利用kurtosis函数来模拟超高斯分布。本文通过定义一个随机映射矩阵w,将原始特征空间Z通过这个映射矩阵w,然后求其最大值的kurtosis。这样,就通过优化算法求这个w,而这个w也将决定哪些值是saliency。同样通过不停的迭代,能够得到不同的saliency点。本文能同时计算出saliency map和视线扫描的轨迹。

  该文的基本假设是:场景中的超高斯成分正是我们想要关注的东西。因此,我们要做的就是在一副场景中提取其超高斯成分。

 

 

  这个图可以很好的解释这种现象。  

  该文用到了projection pursuit统计方法。Projection pursuit是一个统计工具,在高维空间中寻找最优的投影方向;然后将原始数据减去这个方向上的投影数据,再继续重复前面的步骤。                                      

数据准备:该文将图像表示成patch的形式,然后利用PCAwhitening,将原始数据转换成新的矩阵Z

文中用到了Fixed-point iteration method.【参考:http://home.iitk.ac.in/~psraj/mth101/lecture_notes/lecture8.pdf】

 

 

【几何解释就是经典的牛顿算法】

文中的几个公式推导:

原文中公式3的推导如下:

 为了最大化这个梯度,当梯度的方向与映射的方向一致时,这个迭代就会收敛。所以得到如下公式:

 将这个公式的右边的第二项移动左边,或略常数项,可以得到以下公式。

这样就可以通过迭代求取映射向量W。

当然,在得到一系列的映射向量W时,我们需要将他们进行正交化,来确保当前的优化方向与前面的优化方向不一致。这样就实现了projection pursuit的目的。从当前方向投影后,就不再在这个方向上进行投影,而是寻找与他垂直的方向上寻找下一次单个超高斯点。

在得到了投影向量W后,计算这个投影方向上的响应图:

这个响应图就是原图中的那个具有最大的单个超高斯分布的区域,这个分布是基于图像颜色的分布。这样RM1对应图中具有最大SGC(Super Gaussian Component)对应的响应图,表示人眼首次注视的区域,RM2则是对应的次大SGC分布,RM3,...依次推理,直到W收敛。而W收敛意味着下次转移的位置与上次转移的位置距离很小。也就是以后的SGC响应太小,不能引起注意力了。

最后,所有的响应图做适当的处理,就得到显著图的估计。

文章的实验结果看起来还不错,但是没有做gaze selection相关的验证实验,而是做了Video上的验证。

本文是一篇oral文章,这篇文章的整体思路:他是从“在图像中的什么成分能引起注意力”的问题出发。从大量tracker数据中得到假设:超高斯分布的数据更能吸引人们的注意力。因此,文章致力于寻找那些具有超高斯分布的位置。

当然文中缺少一些关键信息,对于整个思路理解起来,带来难度。比如,矩阵Z的大小,XM*N的矩阵,MN分别表示什么意思等。

【本文完】

原文地址:https://www.cnblogs.com/hSheng/p/2807457.html