Transformer Tracking

Transformer Tracking

2021-04-08 21:45:41

Paperhttps://arxiv.org/pdf/2103.15436.pdf 

Codehttps://github.com/chenxin-dlut/TransT 

 

  如图所示,本文提出了一种新的 matching 方式,也可以说是一种特征融合模式,即:利用 Transformer 模型对 template feature 和 search region 进行特征融合。然后再将融合后的特征进行多分枝任务的预测,即:在 Siamese 框架下进行 Regression 和 Classification。核心部分包含三个主要模块:特征提取模块,特征融合模块,以及预测模块。

  

 

  特征提取模块:利用修改后的 ResNet50 作为骨干网络提取 target  template 和 search region 的特征;

  特征融合模块:作者先用两个 1*1 的卷积层进行降维操作,将 1024-D 的特征图降维成 256-D。然后沿着空间维度进行 reshape,得到 d*HW 的特征向量的集合。这两组特征分别输入到特征融合模块,即:ECA 和 CFA 模块中。

  预测头网络(Prediction Head Network):这里采用的是  anchor-free 的跟踪分支,即:一个是 classification branch,一个是 regression branch,每一个分支均是 3层维度为 d 的感知层,以及ReLU 激活函数。

 

  接下来,核心就是特征融合模块的具体操作:

  1. ECA(Ego-Context Augmentation) 和 CFA(Cross-Feature Augmentation Modules)

  Multi-head Attention: 

  这里简单介绍了 self-attention 的机制  

   

 

  其中,dk 是 key 的维度。

   

 

  Ego-Context Augment (ECA)

  

 

  如上图所示,给定输入 X,作者对这个 feature map 采用了  sine function 来产生位置编码。然后将其和输入 X 进行相加,最终 ECA 模块可以总结为:

   

 

  其中,Px 是空间位置编码,XEC 是 ECA 的输出。

  

  Cross-Feature Augmentation (CFA) 

  上述 ECA 是对单独的 feature map 进行 attention 处理。作者这里也考虑了 template 和 search region 之间信息的融合,提出了 Cross-Feature Augmentation 模块。类似 ECA,CFA中也引入了空间位置编码。此外,FFN 模块被用于增强模型的拟合能力。

  

 

  因此,CFA机制可以总结为

   

 

  Differences with the original Transformer

  作者引入的 cross-attention 操作使得 Transformer 模型更加适用于跟踪的任务。

   

 

  

2. Experimental Results

 

 

 

 

 

  

== 

Stay Hungry,Stay Foolish ...
原文地址:https://www.cnblogs.com/wangxiaocvpr/p/14635036.html