论文阅读笔记（四十三）【AAAI2020】：Rethinking Temporal Fusion for Video-based Person Re-identiﬁcationon Semantic and Time Aspect

论文阅读笔记（四十三）【AAAI2020】：Rethinking Temporal Fusion for Video-based Person Re-identiﬁcationon Semantic and Time Aspect

Introduction

作者认为之前提出的网络忽视了不同阶段的特征差异，新提出了一个同时考虑时间、语义信息的网络框架。在时间维度采用了注意力机制，之前的方法都是将每一帧看成独立的个体提取注意力得分，但作者考虑了帧与帧之间的关系信息；在语义维度采用了CNN多层特征融合的策略

Methods

（1）概述：

（2）时间维度：Intra/Inter-Frame Attention：

为了降低帧之间的冗余信息，并把注意力集中到重要的帧上，提出了帧内/帧间注意力机制。给定L帧图像，提取得到的视频特征向量为，计算方法为：

权重的计算为：

其中w表示帧内注意力权重，v表示帧间注意力权重。

① 帧内注意力权重：

大部分现有的注意力计算方法是基于该帧自身的质量和内容，这种注意力机制称为帧内注意力权重。假定视频包含L帧，通过骨干网络提取得到第i帧的特征为，通过二元回归器得到权重为：

② 帧间注意力权重：

为了关注更有判别力的特征，降低冗余，包含相似视觉信息的帧应该被分配到更低的注意力权重。因此，帧的权重也要考虑到与其它帧的关系度和差异性，这种注意力机制称为帧间注意力权重。

上图为作者提出的基于帧间注意力模块的关系网络。首先采用骨干网络提取出帧的特征，最直接的方法是采用距离度量方法（欧氏距离或者余弦距离）计算得到两帧的相似度，帧间的注意力得分计算为：

作者对此做了深层次的改进，提出了关系网络。输入每对帧的特征信息，即维的特征，通过多层感知，投影到了维的关系空间，得到关系映射计算为：

由此得到一个规格为的关系映射矩阵，通过1*1卷积输出通道维度为1的关系注意力矩阵，每个元素表示第i帧和第j帧的关系权重，通过计算同其他L-1帧权重的平均得到该帧的关系注意力权重：

（3）语义维度：Multi-Stage：

在多阶段特征融合上，作者采用了语义注意力模块。假定有K个来自不同阶段的特征，每个阶段的输出设为g，通过Softmax得到该阶段的重要性得分，即：

具体表示为：第i个分支提取的特征在第j个分支上所占的注意力权重。通过求平均得到第j个分支的注意力权重：

最终输出的特征为：

Experiments

（1）实验设置：

① 数据集设置：PRID2011、iLIDS-VID、MARS；

② 实验细节：采用了ResNet50作为骨干网络，用CUHK03、DukeMTMC、Market1501进行预训练，再在PRID2011、iLIDS-VID、MARS微调。

（2）实验结果：

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/orangecyh/p/13173342.html