CVPR2018_Frustum PointNets for 3D Object Detection from RGB-D Data

viewing frustum: 称视景体、视锥，是三维世界中在屏幕上可见的区域，即虚拟摄像机的视野。

一作： Charles R. Qi 四作： Hao Su

又是他俩，PontNet, PointNet++ CVPR2017, NIPS2017，又来个CVPR2018, 人生赢家啊

解决3D object detection问题，使用RGB-D data(使用depth sensore)，不同于之间的2D RGB-D图像和3D voxels, 他们经常模糊3D pattern以及3D data的不变性,本文直接作用在RGB-D scan生成的原始点云上

虽然之前PointNet能在小scale point clouds中分割得很好，但是一个主要问题是如何在大规模场景中有效地检测物体 detect objects。

利用降维技术和成熟的2D object detectors, 本文提出Frustum PointNet framework解决了以上的问题。

本框架超过SOTA,并且high efficiency.(runing at 5 fps) 【RGB-D & detection】

这篇论文虽然起名时RGB-D data，但是实际使用的还是点云数据

3D sensors已经广泛部署于手机和无人机上，所以现在有越来越多的3D data, 本文学习一个更重要的3D perception tasks--3D object detection

之前的工作大多是把3D数据转换成2D数据(投影)或者体素数据来处理的，但是这样就去失去3D数本质的一些特征以及不变性

主挑战：

how to efficiently propose possible locations of 3D objects in a 3D space.

3D search的计算复杂度特别高，会随着分辨率增高计算复杂度增高，对于一些大场景或者实时的应用(自动驾驶)不是很实际

本文利用成熟的2D检测技术，通过降维方式

之前的工作都是将RGB-D数据作为2D map用CNN处理，本文更加3D利用depth map映射到point cloud从而直接处理point cloud

首先会对3D数据进行变换到一个规范框架，通过alignment，就可以不用考虑一些姿态的变化

在KITTI 3D object detection中超过了SOTA, 而且high efficiency

通过不同描述RGB-D data的方式来进行3D detection

Front view image based methods: 用2D RGB图像
Bird's eye view based methods:
bird's-eye view is an elevated view of an object from above, with a perspective as though the observer were a bird, often used in the making of blueprints, floor plans, and maps
3D based methods: point clouds, 3D voxel, mesh

RGB-D data The depth data, obtained from LiDAR or indoor depth sensors, is represented as a point cloud in RGB camera coordinates.

模型主要分为3部分：

对于实时3D sensor采集的3D数据还是比2D数据的分辨率要低很多，所以用2D图片和2D目标检测的方法来提proposal(同时进行分类)效果很好

This normalization helps improve the rotation-invariance of the algorithm.