论文阅读笔记（六十二）【arXiv2021】：VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale Text-to-Image Search

Introduction

图文检索问题上存在两个核心挑战：准确率以及速度。作者基于transformer提出了VisualSparta模型（Sparse Transformer Fragment-level Matching），兼顾了准确率和检索速度。本文的贡献包括：

1) 提出了一个新的基于片段交互作用的图文检索模型，并取得了SOTA的性能；

2) 反向索引 (Inverted index) 被证实对图文检索有效。

VisualSparta Retriever

Query Representation

不同于一些方法对query编码成文本序列，本方法先将query编码成词向量，即：，其中，每个query可以表示为：。

Visual Representation

对于每幅图像，作者采用了三种特征：局部的深度特征，局部的位置特征，目标标签特征。

1) 局部的深度特征 (regional deep feature)：采用Faster-RCNN提取，即：；

2) 局部的位置特征 (regional location feature)：每个局部都包含六个位置特征，即；

每个图像的局部都采用上述两个特征的级联：，图像特征为：；

3) 目标标签特征 (object label feature)：对于每个局部都采用三种编码，即：word embedding、position embedding、segment embedding，即：，图像的标签特征为：。

图像特征表示为：，最后再输入到Transformer中，即：。

Scoring Function

计算图文相似度采用如下过程：

先计算每个局部与每个单词的相似度，即：；

采用一个训练的bias和ReLU计算投影，即：；

对所有局部相似度取log并进行累加，即：。

Retriever training

目标函数为：。

（反向索引那部分没有看的很明白）

Experiments