论文-See, Hear and Read: Deep Aligned Representations

See, Hear and Read: Deep Aligned Representations

  

本paper提出了可以在三种自然模态(视觉,声音,语言)下进行学习的深度判断特征表达,使用Deep Conv Network来进行对齐式的表达学习。

本paper使用的dataset:

Cross-Modal Network

目标是对image X 和sound Y学习其对齐之后的representation。

Learning Aligned Representation的结构:

为了让不同模态之间的representation进行对齐,在网络较上层的layer进行共享参数。这样的好处是让类内部的representation进行跨模态的融合。

Student-teacher模型在transfer learning上使用。在本paper中,不使用aligned representation,而是让learned parameters进行共享。

Alignment by Model Transfer

给定一个 teacher 模态 g(x), 比如让AlexNet成为image classification model,在给定另一个模态的data时,对f(x) 进行训练。

使用KL-divergence作为loss:

Alignment by Ranking

对于ranking loss function,采用有着对齐和判别属性的表达式:

其中△是边缘大小的超参数。

Learning

其中 model transfer loss 来源于最后一层的output layer,ranking loss 来源于所有的共享layers。最后的objective loss 是两者的总和。

Network Architecture

网络有三层不同的输入层,取决于数据的不同模态。其中网络的disjoint pathway对不同的模态的data进行feature extraction,然后在shared layers中拟合成modal-robust features。

Sound Network

因为sound是一维的信号,本paper使用四层的卷积网络将spectrogram转换成high-level的representation,

Text Network

使用word2vec将sentences转换为word representation,使用一个四层的deep one-dimensional Convolutional Network 来提取特征

Vision Network

使用标准的Krizhevsky architecture,提取pool5的特征经过flatten作为特征

Shared Network

来自sound,text,和vision的feature都有着固定长度相同维度的vector,

对比结果:

总结:

将data经过不同的特征转化网络,在shared layer里面将相同label的特征统一扭曲到可分的空间中。

原文地址:https://www.cnblogs.com/zhang-yd/p/7838024.html