论文笔记:Visual Question Answering as a Meta Learning Task

Visual Question Answering as a Meta Learning Task 
ECCV 2018

2018-09-13 19:58:08

 

Paperhttp://openaccess.thecvf.com/content_ECCV_2018/papers/Damien_Teney_Visual_Question_Answering_ECCV_2018_paper.pdf 

 

1. Introduction:  

本文提出一种新的 VQA 思路,将 meta-learning 结合进来,通过支持集的形式(Support Set),让神经网络学会学习。

本文核心的技术贡献是:提供一种顶尖的 VQA模型到 meta-learning 的设定下。the resulting model 是一个深度神经网络,利用 dynamic parameters,也被称为 fast weights,依赖于 support set 在测试时决定的。

the resulting system 的一个能力是:学会产生完全新颖的答案(在 training data 中从未出现的回答)。另外一个能力是处理 rare answers 能力。因为 VQA 是严重的类别不均衡。

 

本文的贡献是:

1. 将 VQA 看做是 meta-learnig 的问题,在测试时,提供一个 support set 进行模仿;

2. 描述了一个神经网络结构 以及 训练过程,能够结合 meta-learning 的场景;

3. 能够产生新颖的答案。对于 rare answers 能够很好的处理,更好的采样效率; 

2. VQA in a Meta Learning Setting

1)传统的 VQA 模型

  Image I, Question Q, 答案集合 A;

2)拓展到meta-learning 应用场景下

  带有 support set S, the support set S can include novel examples S' provided at test time; S = T U S' ; 

 

3. Proposed Model

作者将 VQA 系统分为两个部分:第一个部分就是感知,the embedding part that encodes the input question and image;第二个部分就是,the classifier part that handles the reasoning and actural question answering; 

3.1. 非线性映射 $f_{theta} (*)$ : 

非线性映射的作用是:将问题/图像 h 的 embedding 映射到适合 classifier 的表示(is to map the embedding of the question/image h to a representation suitable for the following classifier)。

我们采用 paper 【34】的设置,利用  a gated hyperbolic tangent layer, 定义为:

其中,$delta$ 是逻辑激活函数,W, W', b, b' 都是可学习的参数,圆圈代表了元素级相乘。我们将这些参数统一表达为 $ heta$,传统方法就是用 BP 算法以及 梯度下降的方法进行训练,这样他们得到的就是 static 的参数。而本文所提出的方法,在测试的时候,依赖于 the input h 以及 the available support set,自适应的进行参数的调整。具体的,我们利用 static parameter $ heta^s$,以及 测试时候的动态参数 $ heta^d$。其线性组合为: 其中,w 是学习权重的向量。动态权重 可以看做是根据输入 h,对 static weights 进行的调整(the dynamic weights can therefore be seen as an adjustment made to be the static ones depends on the input h)。

 

候选动态权重的集合,被保留在 associative memory M 中。该 memory 是一个关于 key/value pair 的集合(跟支持集一样大)。在测试的时候,我们从该 memory 中提取出合适的动态权重,通过 soft key matching: 

其中,$d_{cos}$ 代表了余弦相似度函数。所以,我们得到的是一个加权的 sum,用的是 输入 h 和 memory keys $h_i^~$ 之间的相似度来加权 the memory values。

Mapping to Candidate Answers 

未完,待遇 。。。 

 

 

 

 

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

==

 

原文地址:https://www.cnblogs.com/wangxiaocvpr/p/9643006.html