多视图立体匹配论文分享CasMVSNet

作者：Todd-Qi

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

论文题目：Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching

代码地址：在公众号「3D视觉工坊」，后台回复「CasMVSNet」，即可直接下载。

0、引言

CasMVSNet[1]是CVPR2020的工作，在开始介绍这篇文章之前，我们首先回顾一下之前的工作。基于学习的MVS算法可以分为四个模块：

·特征提取模块

·特征匹配和代价聚合模块

·深度图回归模块

·深度图细化模块[可选项]

图 1 MVSNet网络架构图

以ECCV2018的MVSNet[2]为例，这里简单介绍每个模块的实现方式，具体细节可参考论文或之前的推文。

·特征提取模块：8层的2D卷积操作，除最后一层外，卷积操作后跟随BatchNorm层和ReLU；

·特征匹配和代价聚合模块：

※特征匹配：通过单应变换将源图像的特征图变换到参考视图下，并基于方差指标将多视图的特征体聚合为一个代价体。

※代价聚合：4个尺度的3DCNN网络

·深度图回归：soft-argmin操作。

1、文章动机

基于学习的MVS算法因为受到显存的限制，输出的深度图的空间分辨率只有输入图像的1/16大小（长宽均为输入图像的1/4大小）。以MVSNet为例，对于1600×1184大小的输入图像，需要构建h×w×D×F=400×296×256×8大小的代价体，16GB的显卡才可以胜任。之前的方法限制了高分辨率MVS算法的发展。

那么问题来了，为什么要得到高分辨率的深度图呢？我们知道，MVS算法的评测是对最后生成的点云进行评测。同等情况下，深度图分辨率越高，得到的空间3D点数目越多，那么点云的完整性会更高，重建质量则更佳。

图 2 代价体，其中H和W为空间分辨率，D为平面假设数，I为深度间隔

关于代价体：代价体(Cost Volume)是三维的，存储时为4D的tensor。我们可以理解为：代价体每一个位置存储的是一个F维的向量而不是标量。如图2所示，空间分辨率H×W越高，平面假设数D越多，深度间隔I越小，那么得到的深度图质量越高；同时显存占用越大、耗时越长。那么，有没有一种可以权衡精度和效率的方法呢？

2. 方法

图 3 CasMVSNet网络架构图

整体思路：CasMVSNet使用级联的代价体来实现coarse-to-fine的深度估计。具体地，首先通过一个较小的代价体估计低分辨率的深度图，然后我们可以根据上一级输出的深度图，缩减当前尺度的深度假设范围。CasMVSNet使用3级的代价体来实现深度图估计，包括两级的中间结果和一个最终的深度输出。

· 特征提取模块：CasMVSNet需要在每个尺度上都进行特征提取和代价体构建，所以需要输入图像的多尺度特征。文章使用了三个尺度的FPN(Feature Pyramid Network)网络。三个尺度的特征图空间分辨率分别为输入图像的{1/16, 1/4, 1}大小。和之前的方法一样，不同输入图像之间共享权重。

·特征匹配和代价聚合：同MVSNet

·深度图回归：同MVSNet

图 4 深度范围的确定

·深度范围的确定：

3、实验结果

3.1 DTU数据集

CasMVSNet在DTU[3]数据集的实验结果如表1所示，和Baseline方法MVSNet相比，重建质量有35.6% 的提升，显存占用降低了50.6%，运行时间有59.3%的提升。点云重建质量也超过了2019年的R-MVSNet、P-MVSNet和Point-MVSNet等方法。

图5中(a)~(d)是不同方法的DTU scan9的可视化结果，我们可以看到CasMVSNet重建的点云更加稠密，点云质量更佳，这也说明了高分辨深度估计的优势所在。图5中(e)为不同方法的GPU占用和精度对比图；图5中(f)为不同方法的运行时间和精度对比图。

表 1 DTU数据集实验结果

图 5 与SOTA方法的实验效果对比图

3.2 Tanks and Temples 数据集

CasMVSNet在Tanks and Temple[4]数据集的实验结果如图2所示，重建点云的可视化结果如图6所示。

表 2 Tanks and Temples数据集实验结果

图 6 Tanks and Temples数据集的重建点云

参考文献

1.Gu X, Fan Z, Zhu S, et al. Cascade cost volume for high-resolution multi-view stereo and stereo matching[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 2495-2504.

2.Yao Y, Luo Z, Li S, et al. Mvsnet: Depth inference for unstructured multi-view stereo[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 767-783.

3.Aanæs H, Jensen R R, Vogiatzis G, et al. Large-scale data for multiple-view stereopsis[J]. International Journal of Computer Vision, 2016, 120(2): 153-168.

4.Knapitsch A, Park J, Zhou Q Y, et al. Tanks and temples: Benchmarking large-scale scene reconstruction[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 1-13.

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿交流群已成立扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。▲长按加微信群或投稿▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款圈里有高质量教程资料、可答疑解惑、助你高效解决问题觉得有用，麻烦给个赞和在看~