Grounding-Tracking-Integration

Grounding-Tracking-Integration
2020-05-19 11:00:57

Paper: https://arxiv.org/pdf/1912.06316

本文提出一种 tracking-by-language 的算法，来根据文本描述进行目标跟踪。思路比较直观，将该任务分为三个子任务：grounding，tracking，以及integration。

因为只有language描述，所以第一帧的定位显得格外重要，这里作者采用了顶尖的 grounding 算法来实现；

关于 tracking，用的是 SiamRPN++ 跟踪算法；

文章的核心创新是 integration，如何有效地将 grounding 和 tracking 算法进行结合，是非常重要的。

上图是作者提出的 GTI 跟踪框架。用神经网络的方法学习了一个 RT-score 来判断 grounding 的结果是否可靠。具体的算法示意图如下：

那么，重点来看 RT-score 预测部分：

R-score 用于建模产生的 BBOX 到底有多准确。如果 R-score 得分很低，grounding 可能是失败了，这时候可以用 tracking 的方法来协助进行纠正。R-score 定义为：language grounding regions 和 GT box 之间的 IoU得分。

T-score 建模了目标图像块能否很好地作为目标模板进行跟踪。

作者用两个单独的回归网络来预测这两个得分。