论文阅读笔记（七十七）【CVPR2017】：Attention-based Natural Language Person Retrieval

Introduction

本文提出了一种基于文本的行人定位并检索的系统，即：给定一个包含多个行人的大场景图像，以及一个行人的对应描述，需要在图像中对描述的行人进行定位以及检索。

Prposed Method

1) 视觉特征：

作者采用Faster R-CNN进行行人检测，检测出的行人候选区域调整为 224x224，再通过ResNet-152进行特征提取【这里提取行人子图特征】；

此外用Faster R-CNN提取得到的注意力权重图对全局图像在ResNet首层卷积后的输出相乘【这里为完整图特征中ROI挖取局部特征】；

每个子图都有8维的空间特征，即（这里我没理解为什么需要8维定位，目标检测一般4维就可以）。

将三者的特征进行级联，通过FC层输出视觉特征。

2) 文本特征：

采用Skip-Gram模型提取词向量，再通过Bi-LSTM进行文本特征提取。对语句特征融合了注意力机制，再与属性文本特征级联。通过FC层得到最终文本特征。

3) 将图文特征进行相乘，再通过FC层输出分类预测。