[CVPR2019]Query-guided End-to-End Person Search

这篇文章在OIM的基础上做了较大改进，在CUHK-SYSU和PRW两个数据集上取得了不错的进展。

基本流程如Figure 1的右边，用孪生的faster rcnn网络做detection，然后用re-ID网络做识别，最后用QSimNet求query-gallery图像对的相似性。

整个网络的框架如Figure 2。由几个大的部分组成：①上下两条线SiameseNet，基本上是OIM的identity net，这部分将ResNet分成了conv1-conv4_3和conv4_4-conv5两段；②ResNet第一段加入QSSE-Net用来做特征提取，下线进一步加入QRPN以提取proposal,使得过程变成query-guided ③ResNet第二段用作identity分类，上下线的输出特征最后送入QSimNet计算相似性。

QSSE-Net

Figure 2中我标记的①QSSE-Net的作用是提取特征。注意，这个孪生网络的输入是整个query image和整个gallery image图像对。该部分如Figure 3所示

这部分利用了SEBlock，在18年CVPR的person search文章里也用了这种结构。孪生网络共享参数，基本网络结构是ResNet。值得一提的是，在SEBlock第一阶段，经过global average pooling之后，query和gallery的feature连接在了一起，作者认为通过这种方式，QSSE-Net re-calibrates channel weights to take into account intra-network channel dependencies and inter-network channel similarities。输出的就是两张图像的feature map。

Query-guided RPN (QRPN)

该部分是为了对Gallery image检测得到proposal。注意输入不再是整张图像的feature map，而是crop的之后对应的图像块的feature map。结构如下

这部分显然是受SEBlock的启发，Query的feature经过两个FC实现squeeze和excitation,但是输出是和gallery的feature相乘（SEBlock是乘回query原输入）。输出即得到proposal.

Query-guided Similarity Net (QSimNet)

Loss

显然网络结构很复杂，事实上也是有7个子loss