SLAM相机定位

摘要

深度学习在相机定位方面取得了很好的结果，但是当前的单幅图像定位技术通常会缺乏鲁棒性，从而导致较大的离群值。在某种程度上，这已通过序列的（多图像）或几何约束方法解决，这些方法可以学习拒绝动态对象和光照条件以获得更好的性能。在这项工作中，我们显示出注意力可以用来迫使网络专注于几何上更鲁棒的对象和特征，即使仅使用单个图像作为输入，也可以在通用基准中实现最新的性能。通过公共室内和室外数据集提供了广泛的实验证据。通过显著性图的可视化，我们展示了网络如何学习拒绝动态对象，从而产生好的全局相机位姿回归性能。

源代码开源：https://github.com/BingCS/AtLoc。

这项工作的主要贡献如下：

•我们提出了一种新的用于单图像摄像机定位的自注意引导神经网络，允许精确和稳健的摄像机姿态估计。

•通过在注意之后可视化特征显著性图，我们展示了我们的注意机制如何鼓励框架学习稳定的特征。

•通过在室内和室外场景中的大量实验，我们证明我们的模型在姿势回归中达到了最佳状态，甚至优于多帧（顺序）方法。

算法流程

图7，提出的AtLoc框架的概述，该框架包括视觉编码器（从单个图像中提取特征），注意力模块（计算注意力并重新加权特征）和位姿回归器（将新特征映射到相机位姿）

1. 视觉编码器

视觉编码器用于从单幅图像中提取位姿回归任务所需的特征。我们采用34层的残差网络（ResNet34）作为视觉编码器的基网络。ResNet34的权重是使用ResNet34经过ImageNet数据集上的图像分类预训练预先初始化的。为了鼓励学习有利于位姿回归的特征，用C维全连接层替换ResNet34最后的1000维全连接层并删除用于分类的Softmax层。C是输出特征的维度，考虑到模型的效率和性能，选择维数为C = 2048。给定输入图像I, 通过视觉编码器f encoder提取特征x：