多模态笔学习记

多模态学习笔记

多模态-不同形式的数据融合在一起训练模型:文本,图像,语音,视频,雷达,红外等。换句话说每一种信息的形态都是一种模态。

多模态融合的方法

多模态融合是多模态研究中非常关键的研究点,它将抽取自不同模态的信息整合成一个稳定的多模态表征。多模态融合和表征有着明显的联系,如果一个过程是专注于使用某种架构来整合不同单模态的表征,那么就被归类于fusion类。而fusion方法又可以根据他们出现的不同位置而分为late和early fusion。因为早期和晚期融合会抑制模内或者模间的交互作用,所以现在的研究主要集中于intermediate的融合方法,让这些fusion操作可以放置于深度学习模型的多个层之中。而融合文本和图像的方法主要有三种:基于简单操作的,基于注意力的,基于张量的方法。
参考小奚每天都要学习

简单操作

来自不同的模态的特征向量可以通过简单地操作来实现整合,比如拼接和加权求和。这样的简单操作使得参数之间的联系几乎没有,但是后续的网络层会自动对这种操作进行自适应。

  • 直接concat:分别处理好每个模态的特征然后进行拼接,这样基本上是不考虑每个模态是否进行拼接的
  • Weighted sum 对于权重为标量的加权求和方法,这种迭代的办法要求预训练模型产生的向量要有确定的维度,并且要按一定顺序排列并适合element-wise 加法[6]。为了满足这种要求可以使用全连接层来控制维度和对每一维度进行重新排序。参考小奚每天都要学习

注意力机制融合

自下而上的注意力机制是通过使用目标检测算法(如faster rcnn)来首先挑选出一些列的图像候选区域,而自上而下的注意力机制则是要把视觉信息和语义特征拼接从而生成一个带有注意力的图像特征向量,最终服务于图像描述和VQA任务。同时,带有注意力的图像特征向量还可以和文本向量进行点乘。

  • 图和文本的对称注意力机制
原文地址:https://www.cnblogs.com/gaowenxingxing/p/14782690.html