特征嵌入的正则化 SVMax 和 VICReg

还记得LeCun被拒的论文VICReg吗，今天我们就来说说它

在深度网络中权重和激活那个更重要？显然是权重，因为我们可以从权重推导出网络的激活。但是深度网络是非线性嵌入函数；我们只想要这种非线性嵌入。在这种嵌入基础上进行训练并获得结果（例如分类），我们要么需要在分类网络中使用线性分类器，要么需要在输出的特征中计算相似度。但是与权重衰减正则化相比，特征嵌入正则化在论文中却很少被提到和使用。通过权重衰减的正则化可以明显影响网络的性能，尤其是在小数据集上[3]。同样，特征嵌入也可以带来重大影响，例如避免模式崩溃（model collapse）。在本文中，我将介绍两个相关的特征嵌入正则化器：SVMax [1] 和 VICReg [2]。

SVMax 和 VICReg 都是无监督的正则化器，它们都支持监督学习和非/自监督学习，在训练期间可以处理单独的小批量，所以不需要对数据集进行其他的预处理。为了统一起见本篇文章将使用相同的符号来描述两者：我们有一个网络 N，它接受一个大小为 b 的 mini-batch输入并生成一个 d 维嵌入，即我们有一个输出特征嵌入矩阵 E ∈ R^{b × d}，如图 1 所示。矩阵 E 可以从任何网络层中提取，但它通常是从网络的倒数第二层中提取的，即在全局平均池化层之后。

图1:网络N在训练过程中，对于规模为b的小批量，生成特征嵌入矩阵E∈R^{b × d}。

SVMax 和 VICReg 都显式地对单层的特征嵌入输出进行了正则化，这样也就隐式地对网络的权重进行了正则化。对于 d 维特征嵌入，SVMax 和 VICReg 都旨在激活所有维度。换句话说，两个正则化器的目标是让每个神经元（维度）同样有可能触发。这样可以使某些维度（神经元）始终处于活动/非活动状态而与输入无关，也就避免了模式崩溃（model collapse）。

完整文章：