wasserstein 距离

https://blog.csdn.net/nockinonheavensdoor/article/details/82055147

注明：直观理解而已，正儿八经的严谨证明看最下面的参考。

Earth Mover’s Distance

推土机距离的例子：有一堆土的分布是 PrPr, 其随机变量是xx,现在要求把这堆土挪动成为分布 PgPg ，其随机变量是yy(图上是PθPθ)，这样做的方法很多，那么做最小功的挪动该是什么？这是一个优化问题对应着的最优解是：

这里Π(Pr,Pg)Π(Pr,Pg) 表示的是边缘分布是PrPr 和 PgPg 的联合分布(Pr,Pg)(Pr,Pg) 集合，即 ∑xγ(x,y)=Pr(y)∑xγ(x,y)=Pr(y) ，∑yγ(x,y)=Pθ(x)∑yγ(x,y)=Pθ(x).

γ∈Π(Pr,Pθ)γ∈Π(Pr,Pθ), 求解(x,y)(x,y)服从联合分布γγ 时，关于||x−y||||x−y||的期望，所有的解中最小的期望便是推土机距离。

直观的测度论
测度论提供了一些集合的特征，用来描述适用于RnRn空间的大多数点。
零测度：零测度集合在我们的度量空间中不占有任何的体积。比如二维空间中的一条直线的测度是0。

高维空间的低维子空间
高维空间中的很多点是多余的，真实数据蜷缩在低维子空间的流形上（即高维曲面），因为维度低，所占空间体积几乎为0，所以原始的GANs存在的问题是生成器的生成数据广泛分布在高维空间中，侦测不到真实数据，KL距离始终是log2，所以对生成器的梯度始终是0，怎么训练也没用。

Wasserstein距离的对偶式

相当于找到一个函数 ff 求（3）的最大目标函数。这个函数满足∥f∥L≤1‖f‖L≤1, 1-Lipschitz 函数。
参考：https://www.zhihu.com/question/41752299
：https://vincentherrmann.github.io/blog/wasserstein/
：《深度学习》《hulu百面》
---------------------
作者：NockinOnHeavensDoor
来源：CSDN
原文：https://blog.csdn.net/nockinonheavensdoor/article/details/82055147
版权声明：本文为博主原创文章，转载请附上博文链接！

萍水相逢逢萍水，浮萍之水水浮萍!