Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

2021-04-08 17:37:55

Paperhttps://arxiv.org/pdf/2103.11681.pdf 

Codehttps://github.com/594422814/TransformerTrack 

 

1. 概览:

  本文考虑将 Transformer 引入到 Tracking framework 中,主要是考虑借助 Transformer 模块学习视频中的时序信息以辅助跟踪。并在 Siamese tracker 和 DCF tracker 上进行了结合,在多个数据集上都得到了不错的结果。

  

 

  如上图所示,作者这里考虑两种 Transformer 的用法,即: frame-wise relationship modeling 以及 temporal context propagation。具体的 Transformer 架构,如下所示:

  

  作者提到,为了使得该 Transformer 结构更加适合 Tracking 的任务,作者这里进行了如下几点改变:

  1). Encoder-decoder separation:作者将 Transformer 结构分离为两个分支,以更加适合 Siamese-tracking 的框架;

  2). Block Weight-sharing: 编码器和解码器模块中的 self-attention blocks 是共享的,将 template 和 search embeddings 在同一个特征空间进行转换,以进一步的促进 cross-attention 计算;

  3). Instance Normalization:在 NLP 任务中,word embeddings 是单独的进行归一化的。因为本文中的 Transformer 结构接收到的是 image feature embedding,所以这里作者联合对这些 embedding 在 instance level (image patch)进行归一化。

  4). Slimming Design:为了保持跟踪的效率,作者去掉了 FF layers,保持轻量级的单头注意力。

 

2. 网络结构

  2.1 Transformer Encoder

  Transformer 最重要的部分是 attention 机制,一般而然,输入是三个分支,即:query Q,key K, 以及 value V。一般的,首先用Q 和 K 进行点乘操作,得到一个 attention matrix (i.e., similarity matrix A):

  

  然后,利用该相似性矩阵 A,进行下一步的 attend 操作,从而实现 key 到 query 的传递。在这个框架中,Transformer encoder 接收到一组 template features T,进一步组成 template feature ensemble。为了促进 attention 的计算,作者将 T shape 为 T'。如图 4 所示,该 encoder 模块中的主要成分是 self-attention,因此,可以用于多个 template 之间实现特征增强。为了实现该目标,作者首先计算 self-attention map ,其中也用到了 1*1 linear transformation 进行降维处理。

  基于该 self-similarity matrix A,作者将 template feature 进行转换,然后将输出和输入进行残差相加:

  

 

  其中,该归一化的结果是编码后的 template feature。

 

  2.2 Transformer Decoder

  解码器部分将 search patch feature S 作为其输入。首先将其 reshape 为 S',然后再利用 self-attention 机制进行特征增强:

  

 

  Mask Transformation:基于 search feature 和 编码后的 template feature,作者计算了这两者之间的 cross-attention matrix:

  

 

  这种 cross-attention map 建立了 pixel-to-pixel 的一致性。 在视觉跟踪中,为了传递时序运动信息,作者构建了 Gaussian-shaped masks。作者将这些帧对应的 mask 进行组合,然后进行时序上的传递。这些转换后的 mask 被量化后作为 attention weight 进行特征加权:

  

 

  其中,括号内的操作符表示 the broadcasting element-wise multiplication。

 

  Feature Transformation

 

 

3. Experimental Results

 

 

  

==

Stay Hungry,Stay Foolish ...
原文地址:https://www.cnblogs.com/wangxiaocvpr/p/14633567.html