CV-MEE

1.运用场景

    用于文本-图像特征学习,共建语义空间。

2.创新点

    learning a joint text-video embedding called Mixture-of-Embedding-Experts(MEE);
    the model is designed to handle missing video modalities during training and enables simultaneous learning from heterogeneous data sources;
    文本召图像/图像召文本;

3.算法原理

3.1 网络框架

3.2 MEE

    MEE论文

4.算法理解

    MEE模型主要用于根据文本召回图像/视频,或者根据视频召回文本,其构建了一个文本和视频的公共空间,通过计算文本和视频特征的相似度来做相关召回。该模型支持多模态特征输入,且支持模态缺失,同时引入注意力机制,具有良好的效果。

原文地址:https://www.cnblogs.com/LuckPsyduck/p/12605565.html