Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations

Locatello F., Bauer S., Lucic M., R"{a}tsch G., Gelly S. Sch"{o}lkopf and Bachem Olivier. Challenging common assumptions in the unsupervised learning of disentangled representations. In International Conference on Machine Leaning (ICML), 2018.

解耦表示学习(disentangled representations)通常假设图片有独立的几个因素决定, 即:

[p(x|z) , p(z) = prod_{i=1}^d p(z_i). ]

本文对这个假设提出质疑.

主要内容

VAE 首先通过encoder 将(x)映射为隐变量(z), 再通过隐变量(z)恢复出(x), 其中赋予先验(p(z))常常为标准正态分布, 并且最大化ELBO的同时要最小化:

[mathrm{KL} (q_{phi}(z|x) | p(z)), ]

这表示我们希望所提取的隐变量(z)的各分量是相互独立. 形象地说, 我们改变(z_i)就有图片相应的元素发生改变而其它元素不变. 作者认为这种假设简单而美好, 但是在无监督的模式下, 该假设是不可能成立的.

实际上, 假设先验分布的确如此(p(z) = prod_{i}^d p(z_i)), 则一定存在一个双射(f: mathrm{supp}(z) ightarrow mathrm{supp}(z)), 是的(frac{partial{f_i(z)}}{partial z_j} ot = 0, mathrm{a.e.}, forall i, j), 且(z, f(z))同分布, 即

[P(z le u) = P(f(z) le u), ]

又因为(f)是一个双射, 故

[p(x|z) = p(x|f(z)), ]

进一步有

[P(x) = int p(x|z)p(z) mathrm{d}z = int p(x|f(z))p(f(z)) mathrm{d}f(z). ]

故边缘分布是一致的, 这意味着, 我们除了(p(z)), 还有(p(f(z)))同样可以到处我们的观测数据(P(x)), 反之, 没有额外的信息(即在无监督条件下)我们无法确定所拟合的分布是(p(z))还是(p(f(z))).
倘若是后者, 我们改变隐变量的某一个维度(f_i), 由于偏导数均不为0, 则几乎所有的(z)都改变了, 也就是真正的控制元素都会发生改变, 这和我们的解耦表示学习的初衷产生了背离. 所以结论就是在无监督条件下, 想要解耦表示是几乎不可能的.

注: 上面的(f)的构造不是唯一的;
注: 上面的证明用到了和顺序统计量一样的有趣的玩意.

作者做了很多很多实验, 个人觉得最能体现这一点就是, 所有这些强调解耦表示的VAE都对参数初始化和超参数选择异常敏感.

原文地址:https://www.cnblogs.com/MTandHJ/p/14802217.html