论文笔记之：Pedestrian Detection aided by Deep Learning Semantic Tasks

Pedestrian Detection aided by Deep Learning Semantic Tasks

CVPR 2015

本文考虑将语义任务（即：行人属性和场景属性）和行人检测相结合，以语义信息协助进行行人检测。先来看一下大致的检测结果（TA-CNN为本文检测结果）：

可以看出，由于有了属性信息的协助，其行人检测的精确度有了较大的提升。具体网络架构如下图所示：

首先从各个数据集上进行行人数据集的收集和整理，即:从Caltech上收集行人正样本和负样本，然后从其他数据集上收集 hard negative samples。有了这些行人图像的patch就可以进行行人属性和行人检测的多任务共同学习的框架了。本文提出的TA-CNN框架，是简化版的AlexNet，去掉了一层Conv和fc，加入了 SPV(Structure Projection Vector),其具体计算方法见论文。

其中，论文中考虑到的行人属性和场景属性主要有以下几种：

谈一下我对这篇文章的总体感受：

　　本文将属性信息结合到行人检测中，充分利用语义信息排除错误信息的干扰。以ACF行人检测的结果为基准，进行是否是行人的判断，实际上这是将行人检测问题转化为了图像分类问题，而不是像FCN那样进行行人的定位。这一点我觉得挺扯淡的。文中设计了新的联合训练的loss function，并且花了大量篇幅进行了推导和展示。我一直觉得这是一个multi-task的工作，仔细看看标题：人家是用属性信息协助行人检测。额、、无力吐槽、、