Non-planar Infrared-Visible Registration for Uncalibrated Stereo Pairs

摘要　　

　　对于非平面场景可见光-红外视频配准是视觉监控的一个新领域。它使用两种光谱信息的结合来更好的行人检测和分割。这里，提出一个新的用于非平面场景的可见光和红外配准的在线框架，这个框架包括前景分割、特征匹配、修正和差异计算。提出的方法基于稀疏轮廓点相关性。这个框架的关键想法是在视频的开始移除错误的区域和用于非平面场景的配准方法。

1. 介绍

　　红外和可见光(TIR-Vis)视频内容配准问题是计算机视觉的一个基本问题。配准的基本想法是找到视频帧对的相关性让场景和目标在一个共同的坐标系统中表示。一些人用密集特征匹配来获得高质量的配准，而另一些人用共同显著性特征的稀疏相关性来快速配准。尽管这些系统有许多贡献，但是仍然有许多缺点需要解决。这里主要解决了三个主要的缺点。

　　首先，密集相关性方法用基于区域的衡量标准来匹配相关性对于视频来说太慢。因此，这有个轻量级的快速配准过程。此外，当处理非平面场景(例如，场景中的目标出现在不同的深度)时，这些方法所需要的修整视频不好获得。一些人提出了他们自己的数据集，连同通过标定获得的修整后视频作为输入。这些工作不能适应于不同相机获得的原生视频输入。此外，在视频应用中，配准的质量较低。这里为了快速配准解决了稀疏特征相关性问题。

　　第二，现有的稀疏相关性方法只能处理平面场景。它们的框架假设所有获取的场景都近似平面。因此，这个假设限制它们只能应用于平面场景。

　　第三，因为大多数稀疏方法依赖于暴力匹配策略，它们的计算复杂性相当高。因此不适合移动或者分布式视频监控应用。

　　当前存在的这些用于稀疏配准的框架的典型结构包含3个主要的步骤，分别是特征提取、特征匹配和图像变换。在特征提取和匹配过程中，通过多模态图像之间的稀疏相关性来利用传统特征描述子。其它技术也提出了更有意义的特征。然而，这些技术并不总是成功的，因为TIR-Vis图像对的纹理和分辨率不同。在图像变换步骤，假设所有捕获的场景近似平面，应用单应性变换来最大化目标之间覆盖区域。应该注意，没有现有框架用非修正的视频作为TIR-Vis非平面场景配准输入。这里解决了TIR-Vis视频中平面和非平面场景配准问题中现有系统中的缺点。

　　Main contribution. 这里提出了4个重要的贡献。首先，提出了一个新的用原生输入视频稀疏相关性来对齐TIR-Vis blob的方法来处理非平面场景。实验结果表明提出的框架在平面场景也取得了最先进的效果。

　　第二，提出一个分割噪音滤波策略来消除先前处理阶段假的blob，这减少了之后不必要的计算。

　　第三，引出一个相关blob保存算法来近似每帧中blob之间的相关性，没有使用暴力方法。

　　第四，创建了一个带有原生输入视频用于TIR-Vis配准的公共数据集。

2. 相关工作

　　为了从TIR-Vis视频获得特征，有些用边缘图和轮廓信息。也有用骨架轮廓作为特征来估计单应配准变换。此外，也有利用blob跟踪来找到相关性的。以上方法仅仅在特殊情况下好用。更具体的说它们的准确率主要依靠获取视频的质量。尽管骨架和边缘信息对于通用估计是方便的，但是它们不能给出准确的相关特征来匹配，因为它们粗略的将目标表示为简单的多边形。

　　提出在处理前进行前景分割的想法是为了增加找到目标特征的准确率。然而，这种方法简单地利用形状轮廓和分别处理帧。因此，帧之间几乎没有连接信息。结果是，分割步骤的噪声在配准系统准确率方面有很大的影响。为了决定一个特征匹配好不好，一个空间相关性缓冲被使用。使用了几种缓冲填充策略，如first-in，first-out(FIFO)，或RANSAC。尽管如此，这些方法只试用于平面场景，因为它们假设所有的输入都是平面。现在依旧没有方法来解决非平面、非修正视频配准问题。

　　因为最近所有稀疏相关性方法都用于平面视频，所以对于所有帧仅用一个转换矩阵。这个方法不适用于每个目标有自己差异(在不同深度的平面)的非平面场景。3.3节提出的框架解决了这个限制。这里将每个目标处理为独立的blob，以至于一帧图像使用许多转换矩阵。

　　St-Charles等人的工作最接近这里的工作。他们用PAWCS分割来提取TIR-Vis视频的前景。轮廓提取和形状上下文匹配一起用于获得blob之间的相关性。此外，他们也创建了一个带有投票方案的随机采样缓冲区来过滤内点和异常值。然而，他们的设计用于平面场景的配准，而这里用于处理非平面场景，所以更通用。这里建立在他们的工作优点之上，提出了：(1)在早期处理阶段一个新的分割噪声滤波方法，(2)一个快速blob匹配策略，(3)一个关键点匹配策略通过避免彻底搜索来加速框架，(4)一个视频修正和差异计算方法来配准非平面场景。

　　这个框架是第一个提出来用稀疏相关性来配准非平面TIR-Vis视频。

3. 框架结构

　　整体框架如图1所示。考虑所有的输入帧对都不在一个平面场景。因此，每个目标都有自己的差异。对于帧对，使用PAWCS方法来分割，那使用统计模型来执行背景减法。然而，由此产生的前景分割仍然有噪声并且不适合下面的blob匹配步骤。为了滤除噪声，提出一个基于粗略图像变换的新方法来移除假的blob。变换后的blob如果在对应的图像中没有相关对应就会被移除，3.1节会解释。

图1：提出的框架。首先，原始输入视频用一个统计模型来分割得到前景目标。第二，使用一个噪声滤波策略来消除分割后的视频中的噪声blob来减少不必要的计算。第三，用基本矩阵修正视频。第四，计算视频帧对中相关blob的差异。最终，反修正视频来回复帧到原始的条件。

　　这个新的干净的前景分割用于特征匹配。从目标blob提取轮廓并且应用形状上下文匹配获得每对帧之间的相关性。此外，应用RANSAC算法来滤除异常点为了增加目标blob之间的转换准确性。

　　然后，修正输入视频帧来减少搜索空间从2D到1D的差异。3.3节会描述配准非平面场景方法。用从先前阶段获得的相关blob对来计算每帧中每个目标的差异。基于这些差异，在每个目标中应用转换，并且修正视频来得到和原始输入一样格式的输出。

3.1 分割和噪声滤波

　　使用基于一个使用颜色、二元特征和一个自动反馈机制的统计模型的背景减法，来从背景中分割出前景blob。使用的是PAWCS方法。由此产生的分割包含源于背景的假blob。消除这些假blob使得框架更加鲁棒。正如图2所展示的，从PAWCS返回的原始分割，可以计算出一个粗略的转换来估计整个场景的单应性。然后使用这个转换重叠帧对。移除转换后帧对中没有重叠的blob。

图2：分割和假blob滤波策略

　　算法1描述了细节。$B''^{(F_{i})}$表示第$i$个帧对中其它帧中所有blob，$n$和$m^{(F_{i})}$分别是帧数和blob数。由于每个相机的位置，有些情况在一个帧对的其它帧中没有相关对应(单应性不能完美解释非平面场景)。通过应用一个投票策略替代计算一个广泛场景单应性来处理这个情况。为每个blob计算一个粗略的转换矩阵$M(B_{k}^{(F_{i})})$，并且每个矩阵为整个场景转换投票。通过提取$F_{i}$帧中每个blob$B_{k}^{(F_{i})}$的轮廓和通用形状来计算$M(B_{k}^{(F_{i})})$。从这些形状，基于点匹配策略为每一个blob计算最佳匹配，3.2节会有描述。因为这是一个在早期阶段消除噪音的粗配准，所以只要计算单应转换来替代计算每个blob的差异来减少计算损失。基于获得的相关性列表，如果一个blob在其它模态中没有相关性，它将不会参与投票。然后，对于当前帧对的最终的粗略转换$M_{F_{i}}$是所有投票blob的平均转换。

　　最终，使用这个场景转换来验证每个针对之间blob之间的覆盖率。将Blob从原始尺寸扩展120%来决定是否与其它帧中的任何blob有重叠。有相关重叠blob的blob保留，其它的移除。使用红外视频对可见光视频中的blob滤波，反之亦然。

3.2 特征匹配

　　在TIR-Vis配准中，追踪blob来找到相关性是许多挑战之一。确实，相关特征应该仅仅在相关blob中被发现。St-Chartles等人用一个暴力的方法找到每对帧中的特征相关性。在它们的方法中，使用形状上下文描述符来提取和描述轮廓点。使用$Χ^{2}$来计算相似性分数并找到匹配。对于每一次迭代，为了验证blob特征之间的最佳转换，使用Thin Plate Spine(TPS)模型。这里继承了这个策略的优点来找到相关性。关键的不同是没有彻底地考虑所有可能的特征匹配并且分别处理帧。因此，提出了给一个新方法来快速地计算相关性。主要想法是保留先前帧对的相关性，并且将它们应用到新的帧。

3.3 非平面配准

　　这里用于非平面配准的框架包括三步。框架的图解如图4所示。框架的通用公式是：

$D=H_{1}*T*H_{2}^{-1}$　　(1)

　　这里$D$是配准非平面目标的矩阵，$T$是当前帧每个blob的差异转换，$H_{1}$和$H_{2}$是分别将原生视频转换成修正后的输入和输出视视频的修正矩阵。

图4：非平面场景配准

3.3.1 帧修正策略

　　首先，通过视频修正解决两个挑战。如(1)所示，为了获得视频对中每个目标的正确转换，需要正确估计$H_{1}$和$H_{2}$。然而，主要的难点是计算基本矩阵。如果基本矩阵远离真实的，当然结果会受到影响。因此，$H_{1}$和$H_{2}$矩阵不正确，并且导致错误的差异计算。现有的一些方法用于图像配准问题，不适合视频。这里提出一个用时间和空间帧信息的新技术用于鲁棒性修正。

　　这个技术的第一部分将每一帧视为一张单独的图像。使用相关buffer计算基本矩阵。清楚点说，就是因为这里的分割帧没有假blob，所以Vis和TIR帧中的每个blob的特征被累积得到相关特征列表。然后从这些Vis和TIR帧的特征列表计算基本矩阵。因为一个有噪声的基本矩阵$FM_{cur}$仅仅使用一个单独帧计算得到，所以通过使用空间信息创建一个全局基本矩阵$FM_{g}$作为最佳值。公式(2)描述了当前基本矩阵和全局矩阵的关系。

$FM_{g}=β*FM_{g}+(1-β)*FM_{cur}$　　(2)

　　其中$β$是一个自适应因子。在实验中使用一个固定的值应用于整个数据集。

　　技术的第二部分用于更新$FM_{g}$。因为并非所有基本矩阵都足够好参与更新，所以使用一个粗略配准来验证新矩阵质量。具体的说，从$FM_{cur}$计算$H_{1}$和$H_{2}$值。在差异计算步骤，在3.3.2节描述，通过使用平均blob差异近似差异值。这个近似的原因是为了减少运行时间和没有多余的计算地估计基本矩阵。

　　在估计了整个场景的差异之后，粗略地使用它们用于粗略配准，如3.1所示。此外，用于计算配准的误差阈值$Φ_{cur}$也用于决定$FM_{cur}$是否应该更新。如果当前配准误差$E_{cur}$比最近帧的配准误差低，就留下来并用于更新；否则，消除$FM_{cur}$。算法2描述了用于修正视频的技术。

3.3.2 差异计算

　　找到差异是这里框架最重要部分之一。在这个阶段，修正了两个视频以至于仅仅需要在每帧每个目标的一个维度寻找差异。

　　如3.1节提到的，在分割步骤之后，每个目标通过前景blob表示。因此，计算差异等同于计算两个blob之间的平移。有两步要做。首先，为了减少不必要的计算，这里通过减去它们的质心来估计两个相关blob的平移。之后，差异搜索范围设置为blob尺寸的150%来找到正确的匹配。假设有个blob，位置是$α$，粗略的差异是$η$，用于找到真实范围是$[α+η-θ*γ,α+η+θ*γ]$，这里的$γ$是blob的宽度并且$θ$等于0.5。这个方法可以更快地搜索一个最佳匹配。

　　然而，仍然有一个问题需要解决，那就是配准评估标准。因此，提出了一个新的公式来评估配准质量。Bilodeau等人的工作已经为平面场景配准提出了一个评判准则，它适合于个体blob配准替代整个场景。具体的说，设$b^{(1)}_{i,k}$和$B^{(2)}_{i,k}$分别是第一个视频和第二视频的第$k$帧的第$i$个blob；配准误差如下计算得到：

$E_{i,k}=1- frac{B^{(1)}_{i,k} ∩ B^{(2)}_{i,k}} {B^{(1)}_{i,k} ∪ B^{(2)}_{i,k}}$　　(3)

　　基于这个误差评估策略，选择blob$B_{i,k}$的配准差异最小值。此外，也提出如下完整的视频配准误差：

$E_{Vid}=frac{1}{n}sum{n}{k=1} frac{1}{m_{k}} sum{m_{k}}{i=1} argmin(E_{i,k})$　　(4)

　　其中的$m_{k}$和$n$分别是$k$帧中的目标数量和视频中帧的数量。

　　这里的框架，目标分开处理为了每个目标有自己的差异。因此，使用差异平移并且乘上(1)中的$H_{2}^{-1}$来获得最终的配准场景。

注：2016(0)_CVPR