论文阅读笔记(三十五)【CVPR2019】:Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification

Introduction

(1)Motivation:

相比于全局reid,局部reid存在以下问题:

① 全局reid的空间不对齐主要源于视角姿态变化,但局部reid即时视角姿态相同,依然存在空间不对齐的现象;

② 在局部reid中,不共享的部位将成为噪声,影响模型判断。

(2)Motivation:

提出了visibility-aware part model(VPM)方法解决局部reid问题。该方法首先在全局行人图片上预训练一个识别人体区域的模型。然后定位各个区域,提取区域级的特征。最后计算距离时,先计算区域距离再计算全局距离。

Proposed Method

(1)VPM结构:

定义图片划分的区域为 p = m * n 个,将图像输入到VPM中,图像的规格为 H * W。首先通过卷积层,卷积层由ResNet-50的所有卷积构成,得到3D张量 T,规格为 c * h * w。将 T 输入到区域定位器中,该定位器采用1*1卷积和softmax函数来判断 T 的每个像素单元 g 所属的区域,计算为:

其中表示 g 属于区域 Ri 的概率,由此得到 p 个概率图,每个图都由 h * w 个像素单元构成。

区域定位器为每个区域计算可见性得分 C,为:

如果某个区域的可见性得分较高,那么说明图片中该区域是可见的。

定位后传入区域特征提取器,得到区域的特征为:

(2)VPM的应用:

给定两张图片,通过上述过程计算出区域的特征和可见性得分,即,则区域间的欧式距离为:,全局距离为:

(3)VPM的训练:

VPM的训练包含区域分类器和区域特征提取器的训练。

① 自监督学习:学习区域的可见性感知。给定一个完整的行人图像,随机去除一个区域,再恢复到 H * W 的大小。假设输入的图像左上角和右下角的坐标分别为:,对应在张量 T 上的区域为,其中 S 为下采样率。

通过自监督学习,带来以下三个优点:为区域定位器生成了ground true的标签;通过交叉熵损失让VPM关注到可见性区域;通过三元组损失使得VPM关注到共享区域。

 ② 区域定位器的训练:

采用交叉熵损失,损失函数为:

其中只有满足区域 i 等于标签 L 时才为1.

③ 区域特征提取器的训练:

采用交叉熵损失和三元组损失,定义一个ID的分类器为,对提取到的特征进行ID分类,交叉熵损失为:

其中 k 为预测的ID,V为可见区域的集合。

三元组损失为:

总损失函数为:

Experiment

(1)实验设置:

① 数据集设置:Market-1501、DukeMTMC-reID、Partial-REID;

② 实验细节:前50次epochs只采用交叉熵损失,后80次加入三元组损失;学习率为0.1,并在30次epochs后下降为0.01;设置随机面积裁剪占比为0.5-1.

(2)实验结果:

① 对比方法:

 

其中:TOP:顶部区域总是可见;Bottom:底部区域总是可见;Bilateral:前面两种结合。

② 自监督方法的变体:

参考知乎【传送门

原文地址:https://www.cnblogs.com/orangecyh/p/12753064.html