(论文分析) Object Detection -- Object Class Recognition by Unsupervised Scale-Invariant Learning

Object Class Recognition by Unsupervised Scale-Invariant Learning

作者提出了一个概率模型,其被用来对目标的一些方面(属性)进行概率描述——如形状、表观、遮挡、以及相对尺度。除此之外,一个基于熵(entropy-based)的特征检测被用来选择在图像中的区域以及尺度。对于学习尺度不变目标检测模型的参数时,依靠EM算法实现。在识别过程中,这个模型以贝叶斯方式来进行对图像分类。

方法描述

object model由大量的parts组成,每个part有一个 appearance ,  relative scale 并且还可能被遮挡。形状是由parts之间的相互位置进行表示。Appearance, scale, shape 以及遮挡判断都采用gaussian 密度函数进行描述。学习一个object category的过程就是首先检测区域和相应的尺度,然后从这些区域中估计模型的参数,以至于模型拥有最大似然(对训练数据)。

模型结构

对于一副图像,我们检测到个感兴趣特征点,其位置为,尺度为,以及表征为 ,从而

贝叶斯决策公式(我们使用这个决策式子对目标是否存在进行判断):

对于这个决策公式我们需要计算模型对训练数据的似然

因为我们的模型仅仅有parts,但是在这个图像上有N个特征,因而我们有必要从N个特征中挑选出Pparts基于这个考虑我们引入一个indexing variable ,我们称之为是一个长度为的向量,其中每一项的数值为从0N其表示哪个特征作为模型的part。未分配的特征被认为是背景的parts。如果是0表示这个 part是被遮挡的,不可用。

定义一些有用的概念:

是一个二值向量,其给出每个part的遮挡状态

在当前的假设下,背景的特征数

:在当前假设下,前景的特征数

接下来我们分别描述每项

Appearance:

每一个part服从高斯分布,均值和方差参数为。背景模型参数为。我们应该注意part part 之间是相互独立的。其中假设是对角形式。使用假设进行选择的特征在相应的part密度函数下进行估计。所有没有被假设选择的特征在背景模型下进行估计。于是我们有如下的公式:

Shape:

在一个假设下,形状使用特征位置的联合高斯密度函数进行估计。,其中。所有没有被假设选择的特征都被认为产生于背景。背景模型假设特征均与分布于图像当中,其面积为

(似乎如何对这个联合高斯密度函数进行计算是个问题啊。。。。。。)

Relative Scale:

每个part相对于参考框架的尺度使用参数的高斯密度函数进行建模。每个 part相互独立。背景模型假设是一个在尺度上的均匀分布( range r

Others:

遮挡统计

特征检测及表征

作者在文章中使用的特征检测方式来自于 在特征点位置抽取一个的小patch。于是一个patch有一个121维的向量表示。然后经过PCA,降到10~15维。

学习(这是这个算法的难点所在)

学习任务就是估计模型的参数。采用EM算法,找到最大似然

这一步还需要较好的学习如何操作,如何从假设空间中找到一个最佳假设,作者指出采用

作者的主要思想来源于一下三篇论文:

(1)  M.Burl, M.Weber and P.Perona. A probabilistic approach to object recognition using local photometry and global geometry

(2)  M.Weber, M.Welling, and P.Perona. Towards automatic discovery of object categories

(3)  M.Weber, M.Welling, and P.Perona. Unsupervised learning of models for recognition

见即将公布的 eagleeye 框架

原文地址:https://www.cnblogs.com/jian-hello/p/3552098.html