TransTrack: Multiple-Object Tracking with Transformer

TransTrack: Multiple-Object Tracking with Transformer

2021-01-05 09:47:31

Paper: https://arxiv.org/pdf/2012.15460.pdf

Code: https://github.com/PeizeSun/TransTrack

1. Background and Motivation:

一般 MOT 都是基于 object detection 和 reid 一起来做，但是这种跟踪方式导致跟踪算法复杂，低效。受到 SOT 领域中 Siamese network 的启发，作者提出能够迁移该 key-query 的方式到 MOT 问题上呢？但是直接迁移存在的问题是：无法很好地处理新出现的物体。因此，object detection module 是必须要引入的。所以，作者基于 transformer 模型，提出一种连接物体检测与跟踪的 MOT 方法。算法框架如下所示：

2. Approach：

具体的 transformer 结构如上图所示。可以看到作者首先利用 resnet-50 提取输入图像的特征，得到连续两帧的 feature map，然后输入到一个 encoder 模块中，该模块是由多个 self-attention 加 feed forward layer 构成的。输出的特征会同时输送到两个并行的 decoder 模块中。这两个 decoder 模块分别用于编码 object feature query 和 learned object query，然后会输出对应的 object feature，以得到 tracking box 和 detection box。然后利用 IoU matching 的方式，得到最终的跟踪结果。