Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

2021-04-08 17:37:55

Paper: https://arxiv.org/pdf/2103.11681.pdf

Code: https://github.com/594422814/TransformerTrack

1. 概览：

　　本文考虑将 Transformer 引入到 Tracking framework 中，主要是考虑借助 Transformer 模块学习视频中的时序信息以辅助跟踪。并在 Siamese tracker 和 DCF tracker 上进行了结合，在多个数据集上都得到了不错的结果。

　　如上图所示，作者这里考虑两种 Transformer 的用法，即： frame-wise relationship modeling 以及 temporal context propagation。具体的 Transformer 架构，如下所示：

　　作者提到，为了使得该 Transformer 结构更加适合 Tracking 的任务，作者这里进行了如下几点改变：

　　1). Encoder-decoder separation：作者将 Transformer 结构分离为两个分支，以更加适合 Siamese-tracking 的框架；

　　2). Block Weight-sharing: 编码器和解码器模块中的 self-attention blocks 是共享的，将 template 和 search embeddings 在同一个特征空间进行转换，以进一步的促进 cross-attention 计算；

　　3). Instance Normalization：在 NLP 任务中，word embeddings 是单独的进行归一化的。因为本文中的 Transformer 结构接收到的是 image feature embedding，所以这里作者联合对这些 embedding 在 instance level （image patch）进行归一化。

　　4). Slimming Design：为了保持跟踪的效率，作者去掉了 FF layers，保持轻量级的单头注意力。

2. 网络结构：

　　2.1 Transformer Encoder：

　　Transformer 最重要的部分是 attention 机制，一般而然，输入是三个分支，即：query Q，key K, 以及 value V。一般的，首先用Q 和 K 进行点乘操作，得到一个 attention matrix （i.e., similarity matrix A）：

　　然后，利用该相似性矩阵 A，进行下一步的 attend 操作，从而实现 key 到 query 的传递。在这个框架中，Transformer encoder 接收到一组 template features T，进一步组成 template feature ensemble。为了促进 attention 的计算，作者将 T shape 为 T'。如图 4 所示，该 encoder 模块中的主要成分是 self-attention，因此，可以用于多个 template 之间实现特征增强。为了实现该目标，作者首先计算 self-attention map ，其中也用到了 1*1 linear transformation 进行降维处理。

　　基于该 self-similarity matrix A，作者将 template feature 进行转换，然后将输出和输入进行残差相加：

　　其中，该归一化的结果是编码后的 template feature。

　　2.2 Transformer Decoder：

　　解码器部分将 search patch feature S 作为其输入。首先将其 reshape 为 S'，然后再利用 self-attention 机制进行特征增强：

　　Mask Transformation：基于 search feature 和编码后的 template feature，作者计算了这两者之间的 cross-attention matrix：

　　这种 cross-attention map 建立了 pixel-to-pixel 的一致性。在视觉跟踪中，为了传递时序运动信息，作者构建了 Gaussian-shaped masks。作者将这些帧对应的 mask 进行组合，然后进行时序上的传递。这些转换后的 mask 被量化后作为 attention weight 进行特征加权：

　　其中，括号内的操作符表示 the broadcasting element-wise multiplication。

　　Feature Transformation：

3. Experimental Results：

Stay Hungry，Stay Foolish ...