论文阅读笔记（十一）【ICCV2017】：Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identiﬁcation

Introduction

（1）Motivation：

当前采用CNN-RNN模型解决行人重识别问题仅仅提取单一视频序列的特征表示，而没有把视频序列匹配间的影响考虑在内，即在比较不同人的时候，根据不同的行人关注不同的部位，如下图：

（2）Contribution：

将注意力模型考虑进行人重识别中，提出了时空联合注意力池化网络（jointly Attentive Spatial-Temporal Pooling Networks，ASTPN）.

The Proposed Model Architecture

（1）简述：

建立了时空注意力网络（a recurrent-convolutional network with jointly attentive spatial-temporal pooling，ASTPN），其工作原理是：将一对视频序列传入孪生神经网络，获得两者的特征表示，并生成它们的欧几里德距离。如图所示，每个输入（包含光流的视频帧）通过CNN网络，并从最后一个卷积层中提取出特征映射。然后将这些特征映射输入到空间池层中，每一个时间步获得一个图像表示。然后，我们把时间信息考虑在内，利用循环神经网络生成视频序列的特征集。最后，由循环神经网络产生的所有时间步被注意力时间池结合起来，形成序列特征表示。

（2）卷积层：

输入：网络的输入由三个彩色通道和两个光流组成。颜色通道提供服装和背景等空间信息，而光流通道提供时间运动信息。给定输入序列 v = {v¹， …， v^T}，我们利用下表所示的卷积网络获得特征映射集 C = {C¹，…，C^T}。然后将每个 Cⁱ∈R^c×w×h输入空间池化层，得到图像级表示 rⁱ。

（3）空间池化层（Spatial Pooling Layer）：

使用空间金字塔池化（SPP）层来组成空间注意力池，具体如下：

假设池化核大小集为{(m_w^j, m_h^j)| j = 1, …, n}，则确定第 j 个池化核窗口大小：

第 j 个池化步长为：

然后通过公式得到结果向量 rⁱ：

其中 f_p表示采用窗口大小 win 和步长 str 的最大池化函数。f_R表示重构函数，将矩阵重构成一个向量。除此之外，⊕ 表示向量连接操作。

令一个序列表示为r = {rⁱ∈R^L | i = 1, …, T}，其中：。

（4）注意力时间池化层（Attentive Temporal Pooling Layer）

将上一层得到的 r 输入到循环神经网络提取时间步信息，循环层可以计算表示为：

其中 s^t-1∈R^N是包含上一时间步信息的隐藏层结点，o^t是时间t的输出。全连接权重 U∈R^L*N将循环层输入 r^t从 R^L映射到 R^N，全连接权重 W∈R^N*N将隐藏层结点 s^t-1从 R^N映射到 R^N。注意到循环层通过矩阵U将特征向量嵌入到低维特征中。在第一个时间步中，隐藏层结点被初始化为0，隐藏层通过tanh函数激活传递。

定义矩阵 P∈R^T*N和 G∈R^T*N，其第 i 行分别表示检测数据和对照数据在循环网络的第 i 个时间步的输出，我们计算注意力矩阵 A∈R^T*T：

其中 U∈R^N*N是网络学习的信息分享感知矩阵。

之后，对 A 分别应用列最大池化和行最大池化来获得时间权重向量 t_p∈R^T和 t_g∈R^T。t_p的第 i 个元素表示探测序列中第 i 帧的重要得分，t_g同理。再对时间权重向量 t_p和 t_g应用softmax函数，来生成注意力向量 a_p∈R^T和 a_g∈R^T。a_g的第 i 个元素可以计算为：