论文阅读笔记（三十五）【CVPR2019】：Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification

论文阅读笔记（三十五）【CVPR2019】：Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification

Introduction

（1）Motivation：

相比于全局reid，局部reid存在以下问题：

① 全局reid的空间不对齐主要源于视角姿态变化，但局部reid即时视角姿态相同，依然存在空间不对齐的现象；

② 在局部reid中，不共享的部位将成为噪声，影响模型判断。

（2）Motivation：

提出了visibility-aware part model（VPM）方法解决局部reid问题。该方法首先在全局行人图片上预训练一个识别人体区域的模型。然后定位各个区域，提取区域级的特征。最后计算距离时，先计算区域距离再计算全局距离。

Proposed Method

（1）VPM结构：

定义图片划分的区域为 p = m * n 个，将图像输入到VPM中，图像的规格为 H * W。首先通过卷积层，卷积层由ResNet-50的所有卷积构成，得到3D张量 T，规格为 c * h * w。将 T 输入到区域定位器中，该定位器采用1*1卷积和softmax函数来判断 T 的每个像素单元 g 所属的区域，计算为：

其中表示 g 属于区域 R_i 的概率，由此得到 p 个概率图，每个图都由 h * w 个像素单元构成。

区域定位器为每个区域计算可见性得分 C，为：

如果某个区域的可见性得分较高，那么说明图片中该区域是可见的。

定位后传入区域特征提取器，得到区域的特征为：

（2）VPM的应用：

给定两张图片和，通过上述过程计算出区域的特征和可见性得分，即和，则区域间的欧式距离为：，全局距离为：

（3）VPM的训练：

VPM的训练包含区域分类器和区域特征提取器的训练。

① 自监督学习：学习区域的可见性感知。给定一个完整的行人图像，随机去除一个区域，再恢复到 H * W 的大小。假设输入的图像左上角和右下角的坐标分别为：和，对应在张量 T 上的区域为和，其中 S 为下采样率。

通过自监督学习，带来以下三个优点：为区域定位器生成了ground true的标签；通过交叉熵损失让VPM关注到可见性区域；通过三元组损失使得VPM关注到共享区域。

② 区域定位器的训练：

采用交叉熵损失，损失函数为：

其中只有满足区域 i 等于标签 L 时才为1.

③ 区域特征提取器的训练：

采用交叉熵损失和三元组损失，定义一个ID的分类器为，对提取到的特征进行ID分类，交叉熵损失为：

其中 k 为预测的ID，V为可见区域的集合。

三元组损失为：

总损失函数为：

Experiment

（1）实验设置：

① 数据集设置：Market-1501、DukeMTMC-reID、Partial-REID；

② 实验细节：前50次epochs只采用交叉熵损失，后80次加入三元组损失；学习率为0.1，并在30次epochs后下降为0.01；设置随机面积裁剪占比为0.5-1.

（2）实验结果：

① 对比方法：

其中：TOP：顶部区域总是可见；Bottom：底部区域总是可见；Bilateral：前面两种结合。

② 自监督方法的变体：

参考知乎【传送门】

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/orangecyh/p/12753064.html