CV-MEE

1.运用场景

用于文本-图像特征学习，共建语义空间。

2.创新点

learning a joint text-video embedding called Mixture-of-Embedding-Experts(MEE);
the model is designed to handle missing video modalities during training and enables simultaneous learning from heterogeneous data sources;
文本召图像/图像召文本;

3.算法原理

3.1 网络框架

3.2 MEE

MEE论文

4.算法理解

MEE模型主要用于根据文本召回图像/视频，或者根据视频召回文本，其构建了一个文本和视频的公共空间，通过计算文本和视频特征的相似度来做相关召回。该模型支持多模态特征输入，且支持模态缺失，同时引入注意力机制，具有良好的效果。