CVPR2018_Frustum PointNets for 3D Object Detection from RGB-D Data

viewing frustum: 称视景体、视锥,是三维世界中在屏幕上可见的区域,即虚拟摄像机的视野。

Author

一作: Charles R. Qi  四作: Hao Su   

又是他俩,PontNet, PointNet++  CVPR2017, NIPS2017,又来个CVPR2018, 人生赢家啊

Abstract

解决3D object detection问题,使用RGB-D data(使用depth sensore),不同于之间的2D RGB-D图像和3D voxels, 他们经常模糊3D pattern以及3D data的不变性,本文直接作用在RGB-D scan生成的原始点云上

虽然之前PointNet能在小scale point clouds中分割得很好,但是一个主要问题是如何在大规模场景中有效地检测物体 detect objects。

利用降维技术和成熟的2D object detectors, 本文提出Frustum PointNet framework解决了以上的问题。

本框架超过SOTA,并且high efficiency.(runing at 5 fps)    【RGB-D & detection】

这篇论文虽然起名时RGB-D data,但是实际使用的还是点云数据

Introduction

 3D sensors已经广泛部署于手机和无人机上,所以现在有越来越多的3D data, 本文学习一个更重要的3D perception tasks--3D object detection

之前的工作大多是把3D数据转换成2D数据(投影)或者体素数据来处理的,但是这样就去失去3D数本质的一些特征以及不变性

主挑战:

how to efficiently propose possible locations of 3D objects in a 3D space.

3D search的计算复杂度特别高,会随着分辨率增高计算复杂度增高,对于一些大场景或者实时的应用(自动驾驶)不是很实际

本文利用成熟的2D检测技术,通过降维方式

之前的工作都是将RGB-D数据作为2D map用CNN处理,本文更加3D利用depth map映射到point cloud从而直接处理point cloud

首先会对3D数据进行变换到一个规范框架,通过alignment,就可以不用考虑一些姿态的变化

在KITTI 3D object detection中超过了SOTA, 而且high efficiency

通过不同描述RGB-D data的方式来进行3D detection

  • Front view image based methods:  用2D RGB图像
  • Bird's eye view based methods: 
  •  bird's-eye view is an elevated view of an object from above, with a perspective as though the observer were a bird, often used in the making of blueprintsfloor plans, and maps
  • 3D based methods: point clouds, 3D voxel, mesh

RGB-D data The depth data, obtained from LiDAR or indoor depth sensors, is represented as a point cloud in RGB camera coordinates.

 

3D Detection with Frustum PointNets

模型主要分为3部分:

  • frustum proposao
  • 3D instance segmentation
  • 3D amodal bounding box estimation

对于实时3D sensor采集的3D数据还是比2D数据的分辨率要低很多,所以用2D图片和2D目标检测的方法来提proposal(同时进行分类)效果很好

This normalization helps improve the rotation-invariance of the algorithm.

原文地址:https://www.cnblogs.com/lainey/p/8667010.html