论文阅读笔记(五十六)【ICASSP2019】:Language Person Search with Mutually Connected Classification Loss

Introduction

本文的贡献主要分为两部分:

1) 提出了一个baseline,包含了视觉特征的提取网络、bi-directional LSTM语言编码器、三元组损失;

2) 提出了一个mutually connected classification loss (互联分类损失)。

Proposed Approach

文本特征的提取采用了bi-LSTM (双向LSTM),得到每个单词的文本特征 (双向的特征级联),再通过注意力进行加权,得到文本的特征。注意力权重的计算为:。图像特征的提取采用了在ImageNet上预训练的MobileNet网络。交叉熵损失为:

互联分类损失包含了两部分:

1) 对文本特征的分类损失和对图像特征的分类损失:

2) 基于KL散度计算互联约束损失:

Experiments

原文地址:https://www.cnblogs.com/orangecyh/p/14171357.html