Neural Multimodal Cooperative Learning Toward Micro-Video Understanding

介绍

目前来说，对于跨模态的研究主要集中在对模态间共同的线索进行研究，即一致性。然而事实上除一致性外，互补性也同样重要。作者将一致性与互补性结合起来进行多模态预测。

如图为视觉模态和文本模态的范例，“红色的糖果”和“狗”在视觉和文本模态中表现出了一致性。相比而言，文本中的“女孩”和视觉上的“草”仅在某一模态中出现了一次，表现出互补性。 QQ截图20201019202551

这种跨模态预测并不容易，主要有以下两个挑战：

因此，作者提出了一种Neural Multimodal Cooperative Learning（NMCL）的方法，主要有以下三个贡献：

该方法大体框架如下：

首先从各模态中提取特征并送入三个Cooperative Net。在每种网络中，分别把一种模态当作主要模态，其他模态当作次要模态。然后将得到增强后的特征向量作为合作网络的输出。之后每个特征向量被送入Attention Net，再经过SotfMax后对预测结果进行融合。

作者设计了Cooperative Net来进行跨模态特征的融合，如下图所示。

该模块对特征的每个维度的进行了关系评分，由此来划分出一致部分与互补部分。在这里特征的关系评分反映了来自其他模态信息的一致性。

关系评分的目的是选择各模态的特征，其中各模之间隐含的信息是一致的。

如上图所示，首先将一个特定模态(m)的特征(h^m)作为主要特征，其他模态特征(g_1^m),(g_2^m)作为次要特征。考虑到一致性是主要特征与所有次要特征的相关性，因此将所有次要特征拼接到一起。(g^m)代表了所有的次要特征。

之后作者将(h^m)和(g^m)送入一个单隐层和SoftMax组成的神经网络。这个函数的输出是主要特征的评分向量，其中每个维度的值反映了从整个次要特征得出的主要特征的评分。

同样，对于次要特征，类似的进行评分，来度量从主要特征得出的次要特征的评分。

建立关系评分后，很容易建立一致性和互补性特征。作者通过设置一个可训练的阈值(xi_o^m)，该阈值将关系评分划分为一致向量和互补向量两部分。其中(oinOmicron={h,g})作为主要和次要的标识。通过引入一个SoftMax使其连续，如下所示：

其中(w)是一个标量用来使(y_o^m[i])的输出更接近0或(s_o^m[i])，通过实验发现，当(w)取50时效果最好。

之后，得到四个权重特征(delta_h^m)，(delta_g^m)，(gamma_h^m)，(gamma_g^m)。基于这些权重特征，就可以将混合在一起的一致性特征和互补性特征分离开。

其中，主客主客的两个互补特征和一致特征分别是(alpha_h^m)，(alpha_g^m)，(eta_h^m)，(eta_g^m)。

重构后的特征具有更好的表达性，作者对不同的特征采取了不同的策略。

对于一致性特征，作者将特征融合起来并输入一个神经网络来学习增强其一致性。

其中(W_eta^M)，(phi(·))，( ilde{eta}^m)分别代表模态(m)下的可训练权重矩阵，激活函数和增强后的一致性特征。

为了补充来自其他模态的独家信息，作者将一致特征与互补特征集成，生成具有更强表达能力的特征向量。

经过增强后的信息虽具有更强的表征能力，但同样有很多信息是多余的。作者通过注意力网络对特征的重要程度进行选择。

作者构建了一个可训练的注意力矩阵来计算每个特征对每个类别的重要性，通过计算特征向量与注意力矩阵的乘积来得到加权后的特征向量。

其中(hat{x}^m)代表来自模态(m)增强后的特征向量，(omega_j^m)代表对于类别(j)的注意力权重矩阵，(psi_j^m)代表对类别j加权后的特征向量。

之后将特征向量输入一个全连接层并激活。

将判别后的特征送入一个全连接的SoftMax，来计算每种模式下每个类别的概率分布。

组合多模态的标签向量，定义如下：

之后，通过一个函数来最小化标签。

作者将模型与基线进行比较，得出结果如下：