【笔记】论文阅读 | Matching networks for one shot learning

论文信息：Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.

博文作者：Veagau

编辑时间：2020年01月07日

本文是2016年NIPS的会议论文，作者来自谷歌的DeepMind。在论文中作者提出一种结合了度量学习（Metric Learning）与记忆增强神经网络（Memory Augment Neural Networks）的新型神经网络结构——Matching Networks（匹配网络）。这种网络利用注意力机制与记忆机制加速学习，实现了在只提供少量样本的条件下无标签样本的标签预测。

Matching Networks的网络结构示意图如下：

对于给定的支持集 (S) ，预测新样本数据 (hat{x}) 的标签 (hat{y}) 的概率公式可以表示为：

[Pleft(hat{y} | hat{x},S ight)=sum_{i=1}^{k}aleft(hat{x},x_i ight)y_i ]

其中(k) 表示支持集中样本类别数，(aleft(hat{x},x_i ight)) 为注意力计算公式，其计算基于新样本数据与支持集中的样本数据的嵌入表示的余弦相似度以及softmax函数，表达式如下：

[aleft(hat{x},x_i ight)=frac{e^{c(f(hat{x}),g(x_i))}}{sum_{j=1}^{k}{e^{c(f(hat{x}),g(x_j))}}} ]

其中 (c) 表示余弦相似度计算，(f) 与 (g) 表示施加在新样本与支持集样本上的嵌入函数（Embedding Function）。

为了增强样本嵌入的匹配度，作者在文中还提出了Full Context Embeeding(全文嵌入，简记FCE)方法——支持集中每个样本的嵌入应该是相互独立的，而新样本的嵌入应该受支持集样本数据分布的调控，其嵌入过程需要放在整个支持集环境下进行，因此作者采用带有读注意力的LSTM网络对新样本进行嵌入，最后的实验结果表明，引入了FCE的Matching Network的性能得到了明显的提升。

除了提出新的网络结构外，作者还对ImageNet数据集进行了进一步的加工，提出了适用于Few-shot Learning情景的mini-ImageNet数据集——从ImageNet数据集中抽取100个类别的数据，每个类别有600个样本，成为了继Omniglot数据集之后的第二个FSL标准数据集。

本文在实验设计时遵循的Train-Test Condition Match（训练-测试条件一致）原则——训练时的任务设置应该与实际测试时的任务设置保持一致，是进行少样本学习实验的一个重要指导方针，能够减少模型的泛化误差，提升模型的鲁棒性。