论文阅读笔记(六十二)【arXiv2021】:VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale Text-to-Image Search

Introduction

图文检索问题上存在两个核心挑战:准确率以及速度。作者基于transformer提出了VisualSparta模型(Sparse Transformer Fragment-level Matching),兼顾了准确率和检索速度。本文的贡献包括:

1) 提出了一个新的基于片段交互作用的图文检索模型,并取得了SOTA的性能;

2) 反向索引 (Inverted index) 被证实对图文检索有效。

VisualSparta Retriever

Query Representation

不同于一些方法对query编码成文本序列,本方法先将query编码成词向量,即:,其中,每个query可以表示为:

Visual Representation

对于每幅图像,作者采用了三种特征:局部的深度特征,局部的位置特征,目标标签特征。

1) 局部的深度特征 (regional deep feature):采用Faster-RCNN提取,即:

2) 局部的位置特征 (regional location feature):每个局部都包含六个位置特征,即

每个图像的局部都采用上述两个特征的级联:,图像特征为:

3) 目标标签特征 (object label feature):对于每个局部都采用三种编码,即:word embedding、position embedding、segment embedding,即:,图像的标签特征为:

图像特征表示为:,最后再输入到Transformer中,即:

Scoring Function

计算图文相似度采用如下过程:

先计算每个局部与每个单词的相似度,即:

采用一个训练的bias和ReLU计算投影,即:

对所有局部相似度取log并进行累加,即:

Retriever training

目标函数为:

(反向索引那部分没有看的很明白)

Experiments

原文地址:https://www.cnblogs.com/orangecyh/p/14416243.html