KMM

概
主要内容

Huang J., Smola A., Gretton A., Borgwardt K. & Scholkopf B. Correcting Sample Selection Bias by Unlabeled Data. NIPS, 2007.

概

MMD量化了两组数据是否来自同一个分布的可能性, 那么如何利用这份信息来更好地训练, 增加模型的泛化性呢?

主要内容

我们有两组数据(Z = ((x_1, y_1), (x_2, y_2), ldots, (x_m, y_m)) subseteq mathcal{X} imes mathcal{Y}), (Z' = ((x_1', y_1'), (x_2', y_2'), ldots, (x_n', y_n')) subseteq mathcal{X} imes mathcal{Y}), 分别来自分布(mathrm{Pr}(x, y))和(mathrm{Pr}'(x, y)).

一般来说, 我们训练一个模型(分类也好回归也罢), 可以归结为如下的风险函数

[R(mathrm{Pr}, heta, ell(x, y, heta)) = mathbb{E}_{(x, y) sim mathrm{Pr}} [ell(x, y, heta)], ]

但是我们真正想要优化的是(R(mathrm{Pr}', heta, ell(x, y, heta))), 当然一般的做法是假设二者是一致的. 但实际情况可能是二者并不一致, 但是注意到

[R[mathrm{Pr}', heta, ell(x, y, heta)] = mathbb{E}_{(x, y) in mathrm{Pr'}} [ell(x, y, heta)]=mathbb{E}_{(x, y) sim mathrm{Pr}} [frac{mathrm{Pr}'(x, y)}{mathrm{Pr}(x, y)} ell(x, y, heta)], ]

并记(eta(x, y) := frac{mathrm{Pr}'(x, y)}{mathrm{Pr}(x, y)})(若成立), 则

[R[mathrm{Pr}', heta, ell(x, y, heta)] = R[mathrm{Pr}, heta, eta(x, y)ell(x, y, heta)]. ]

这实际上可以理解为对样本的一个重加权, 所以现在的问题便是, 如何估计(eta(x, y)), 本文研究一种特殊的情况:

[mathrm{Pr}(x, y) = mathrm{P}(y|x) mathrm{Pr}(x) , quad mathrm{Pr}'(x, y) = mathrm{P}(y|x) mathrm{Pr}'(x), ]

即 covariate shift, 此时

[eta(x, y) = frac{mathrm{Pr}(x)}{mathrm{Pr}'(x)}. ]

首先, 根据MMD我们知道, 两个分布差异性可以量化为

[mathrm{MMD}[mathcal{F},p,q] := sup_{f in mathcal{F}} (mathbb{E}_p [f(x)] - mathbb{E}_q[f(y)]), ]

当我们限制(mathcal{F})为 universal RKHS (mathcal{H})的时候, 上式可表示为

[mathrm{MMD}[mathcal{H}, p, q] = sup_{|f|_{mathcal{H}} le 1} mathbb{E}_p [f(x)] - mathbb{E}_q [f(x)] = sup_{|f|_{mathcal{H}} le 1} mathbb{E}_p [langle phi_x, f angle_{mathcal{H}}] - mathbb{E}_q [langle phi_x, f angle_{mathcal{H}}] = |mu_p-mu_q|_{mathcal{H}}. ]

在此处, 我们关注(用(phi(x))表示(phi_x))

[|mu(mathrm{Pr}') - mathbb{E}_{x sim mathrm{Pr}(x)} [eta(x) phi(x)]|, ]

即我们希望找到一个权重(eta(x))使得上式最小, 由于分布的一些特殊性质, 完整的问题表述如下:

[min_{eta} quad |mu(mathrm{Pr}') - mathbb{E}_{x sim mathrm{Pr}(x)} [eta(x) phi(x)]| \ mathrm{s.t.}quad eta(x) ge 0, mathbb{E}_{x sim mathrm{Pr}(x)}[eta(x)] = 1. ]

在实际问题中, 我们只有分布中的有限的采样, 也就是开头的(Z, Z'), 上述问题变为

[|frac{1}{m} sum_{i=1}^m eta_i phi(x_i)- frac{1}{n} sum_{i=1}^n phi(x_i')|^2 = frac{1}{m^2}eta^T K eta - frac{2}{mn}kappa^T eta + mathrm{const}, ]

其中(kappa_i := sum_{j=1}^{n} k(x_i, x_j')). 于是, 我们优化如下的问题

[min_{eta} quad frac{1}{2} eta^T K eta - frac{m}{n}kappa^Teta \ mathrm{s.t.} quad eta_i in [0, B], |sum_{i=1}^m eta_i - m| le mepsilon. ]

限制条件的前者限制了差异的大小, 后者则是希望其迫近概率分布.