高斯相关不等式

Gaussian correlation inequality,GCI
德国统计学家托马斯·罗延在刷牙间灵光乍现,想出了困扰学术界多年的难题“高斯相关不等式”的破解之道,随后用经典数学方法证明了这一定理。有趣的是,他两年前就解出这道难题,由于种种原因,直到最近才广为人知。

“高斯相关不等式”在上世纪50年代被提出后,许多顶尖数学家用尽各种先进方法证明却无果。《量子》杂志最近一篇报道援引美国宾夕法尼亚州立大学统计学家唐纳德·理查兹的话说:“我知道有人在它上面费了40年工夫,我自己也用了30年。”

现年70岁的罗延解出这道题时名不见经传。由于不能忍受在顶级学术刊物上发表论文所需的漫长同行评议过程,罗延把论文发表在了一家没多少人知道的印度学术期刊上。再加上之前有不少人声称破解了这道题最后却证明是场乌龙,罗延的发现没有引起关注。

2015年12月,波兰数学家拉法尔·拉塔拉和学生达留什·马特拉克撰写了一篇有关罗延发现的论文,用更易理解的表述方式使罗延的发现开始受到关注,直至这一成果得到学术界公认。

尽管名声来得晚了些,罗延不以为然。他对《量子》杂志记者说,来自发现重要证据的那份“深深的喜悦和感激之情”已经是足够的奖赏。

他描述刷牙时获得灵感的感觉仿佛想一个问题百思不得其解,突然“看到一个美丽的天使出现在眼前”,带来一个好点子

我说

高斯相关不等式不是高斯提出来的,而是与高斯分布有密切关系的一个不等式。对于均匀分布来说,是没有这个规律的。

为什么叫做相关不等式?如果两个事件相互独立,p(AB)=p(A)×p(B),而高斯相关不等式的形式是p(AB)>=p(A)×p(B)。高斯相关不等式在说:“两个服从高斯分布的变量不相互独立,它们之间可能有很强的相互依赖性”

高斯相关不等式的准确描述:
N维空间中分布着一些点,也就是样本点,因为是N维空间,所以每个样本点有N个属性,记做a1,a2,a3......这N个属性对应N个坐标轴,在每个坐标轴上样本点都满足高斯分布。
假设a1服从高斯分布G1(mu1,sigma1),a2服从高斯分布G2(mu2,sigma2)。那么p(a1-mu1<sigma1 and a2-mu2<sigma2)>p(a1-mu1<sigma1)×p(a2-mu2<sigma2),这里只举了2个属性,当然也可以是N个属性连乘。

记事件A为样本落入a1-mu1<sigma1区间,记事件B为样本落入a2-mu2<sigma2区间,则p(AB)>p(A)×p(B),由p(AB)=p(A)×p(B|A)得知p(B|A)>p(B),于是得到了高斯相关不等式的另外一种形式。

以人的身高体重为例,地球上有60亿个样本,每个样本有(身高,体重)两个属性。身高满足高斯分布(170,20),体重满足高斯分布(60,20)。那么,身高在(150,190)区间的人中体重在(40,80)区间的人数大于全体人类中体重在(40,80)区间的人数。也就是说,身高正常的人体重往往正常。我们可以通过身高来推断人的体重。

我想到了柯西施瓦茨不等式,高斯相关不等式正好跟柯西施瓦茨不等式相反。

参考资料

zhihu
今日头条

原文地址:https://www.cnblogs.com/weiyinfu/p/6784168.html