Jensen's inequality 及其应用

对于一个 convex function (f(x)) , 最常见的形式是:

[fleft(t x_{1}+(1-t) x_{2} ight) leq t fleft(x_{1} ight)+(1-t) fleft(x_{2} ight) ]

从概率论的角度的公式是:

[varphi(mathrm{E}[X]) leq mathrm{E}[varphi(X)] ]

上面是最基本的公式.

公式的各种形式

传统的形式是数字与权重, 这是在有限形式的情况下, 还可以从 measure theory 与概率学的角度定义公式:

有限的形式

对于一个convex function (varphi), 数字 (x_1, x_2, dots x_n) , 也可以看作是 query, 然后是正数的 (a_i) 表示的是权重, 在 Attention 机制中, 可以看作是 weights 的值, 这个值一般可以按比例归一化到和为 1, 这里类似, 那么

Jensen's inequality 就可以表示为:

[varphileft(frac{sum a_{i} x_{i}}{sum a_{i}} ight) leq frac{sum a_{i} varphileft(x_{i} ight)}{sum a_{i}} ]

如果 (varphi) 是一个凹函数, 那么不等式就是下面的形式:

[varphileft(frac{sum a_{i} x_{i}}{sum a_{i}} ight) geq frac{sum a_{i} varphileft(x_{i} ight)}{sum a_{i}} ]

不等式取等号的时候, (x_1, x_2, dots x_n) 是相等的, 在特殊的情况下, 如果 (a_1, a_2, dots, a_n) 相等, 那么不等式的形式可以表示成下面的形式:

[varphileft(frac{sum x_{i}}{n} ight) leq frac{sum varphileft(x_{i} ight)}{n} ]

使用这个不等式, 我们可以很容易证明均值不等式, 取 (varphi) 函数为 (log) 函数的时候:

[log left(frac{sum_{i=1}^{n} x_{i}}{n} ight) geq frac{sum_{i=1}^{n} log left(x_{i} ight)}{n} quad ext { or } quad frac{x_{1}+x_{2}+cdots+x_{n}}{n} geq sqrt[n]{x_{1} cdot x_{2} cdots x_{n}} ]

Measure-theoretic and probabilistic form

概率空间是用来描述随机过程实验结果的一种结构, 对于一个概率空间, $ varOmega, F, P$ :

A probability space consists of three elements:

A sample space, (varOmega) which is the set of all possible outcomes.
An event space, which is a set of events, (F) an event being a set of outcomes in the sample space.
A probability function, which assigns each event in the event space a probability, which is a number between 0 and 1.

那么对于概率空间 $ (Omega, A, mu) $ 来说, 其中 $ mu(Omega) = 1$ , 如果 (g) 是一个实值函数, 并且对 $ mu$ 是可积的, 并且 $ varphi$ 是实数域上的 convex function, 此时詹森不等式形式如下:

[varphileft(int_{Omega} g d mu ight) leq int_{Omega} varphi circ g d mu ]

从黎曼积分的角度来看, $ a,b in R$ , 函数 (f:[a, b] longrightarrow R) 是一个对于 (x) 非负的黎曼可积函数, 将 (f) 函数带入到上面的 (g) 函数就可以得到:

[varphileft(frac{1}{b-a} int_{a}^{b} f(x) d x ight) leq frac{1}{b-a} int_{a}^{b} varphi(f(x)) d x ]

从概率论的角度, 我们引入随机变量的数字特征, 公式就是下面的形式:

[varphi(mathrm{E}[X]) leq mathrm{E}[varphi(X)] ]

各种形式的证明

有限形式

基础条件

如果 (lambda_1) 和 (lambda_2) 是两个任意的非负的实数, 并且有, $ lambda_1 + lambda_2 = 1$ , 并且有 $ lambda_1 x_1 + lambda_2 x_2 = x_0$ 对于 convex function 函数有:

[forall x_{1}, x_{2}: quad varphileft(lambda_{1} x_{1}+lambda_{2} x_{2} ight) leq lambda_{1} varphileft(x_{1} ight)+lambda_{2} varphileft(x_{2} ight) ]

对于这个问题的证明, 可以使用泰勒展开公式:

将 (f(x)) 在某点 (x = x_0) 处按拉格朗日余项的泰勒展开至 (n = 1)

[f(x)=fleft(x_{0} ight)+f^{prime}left(x_{0} ight)left(x-x_{0} ight)+frac{1}{2 !} f^{prime prime}(xi)left(x-x_{0} ight)^{2} ]

分别以 (x = x_1) 与 (x = x_2) 代入, 得到下面两个式子:

[egin{aligned} &fleft(x_{1} ight)=fleft(x_{0} ight)+f^{prime}left(x_{0} ight)left(x_{1}-x_{0} ight)+frac{1}{2 !} f^{prime prime}(xi)left(x_{1}-x_{0} ight)^{2}\ &fleft(x_{2} ight)=fleft(x_{0} ight)+f^{prime}left(x_{0} ight)left(x_{2}-x_{0} ight)+frac{1}{2 !} f^{prime prime}(xi)left(x_{2}-x_{0} ight)^{2} end{aligned} ]

将第一个式子两边乘以 (lambda_1) , 第二个式子两边乘以 (lambda_2) , 得到下面的式子:

[lambda_1 fleft(x_{1} ight)+lambda_2 fleft(x_{2} ight)=fleft(x_{0} ight)+f^{prime}left(x_{0} ight)left(lambda_1 x_{1}+lambda_2 x_{2}-x_{0} ight)+frac{lambda_1}{2} f^{prime prime}left(xi_{1} ight)left(x_{1}-x_{2} ight)^{2}+frac{lambda_2}{2} f^{prime prime}left(xi_{2} ight)left(x_{2}-x_{0} ight)^{2} ]

那么将 $ lambda_1 x_1 + lambda_2 x_2 = x_0$ 代入上面的式子就可以得到(对于 convex function 其二阶导数大于 0):

[lambda_1 fleft(x_{1} ight)+lambda_2 fleft(x_{2} ight)=fleft(x_{0} ight)+ 0 +frac{lambda_1}{2} f^{prime prime}left(xi_{1} ight)left(x_{1}-x_{2} ight)^{2}+frac{lambda_2}{2} f^{prime prime}left(xi_{2} ight)left(x_{2}-x_{0} ight)^{2} < f(lambda_1x_1 + lambda_2 x_2) ]

递归证明

将这个问题泛化得到, 假设上面的条件对于 (n) 成立, 那么对于(lambda_1, lambda_2, dots, lambda_n) , 如果有 (lambda_1 + lambda_2 + dots + lambda_n = 1) , 就有:

[varphileft(lambda_{1} x_{1}+lambda_{2} x_{2}+cdots+lambda_{n} x_{n} ight) leq lambda_{1} varphileft(x_{1} ight)+lambda_{2} varphileft(x_{2} ight)+cdots+lambda_{n} varphileft(x_{n} ight) ]

下面我们来证明在 (n) 成立的时候, (n+1) 也成立:

[egin{aligned} varphileft(sum_{i=1}^{n+1} lambda_{i} x_{i} ight) &=varphileft(lambda_{1} x_{1}+left(1-lambda_{1} ight) sum_{i=2}^{n+1} frac{lambda_{i}}{1-lambda_{1}} x_{i} ight) \ & leq lambda_{1} varphileft(x_{1} ight)+left(1-lambda_{1} ight) varphileft(sum_{i=2}^{n+1} frac{lambda_{i}}{1-lambda_{1}} x_{i} ight) \ & leq lambda_{1} varphileft(x_{1} ight) + lambda_2 varphi(x_2) +left(1-lambda_{1} - lambda_2 ight) varphileft(sum_{i=3}^{n+1} frac{lambda_{i}}{1-lambda_{1}- lambda_2} x_{i} ight) end{aligned} ]

将上面的式子递归下去, 就得到了:

[varphileft(lambda_{1} x_{1}+lambda_{2} x_{2}+cdots+lambda_{n} x_{n} ight) leq lambda_{1} varphileft(x_{1} ight)+lambda_{2} varphileft(x_{2} ight)+cdots+lambda_{n} varphileft(x_{n} ight) ]

这是因为:

[left(sum_{i=2}^{n+1} frac{lambda_{i}}{1-lambda_{1}} ight) = 1 \ left(sum_{i=3}^{n+1} frac{lambda_{i}}{1-lambda_{1}- lambda_2} ight) = 1 ]

measure-theoretic form

假设 (g) 是概率空间 (Omega) 对于实数 (mu) 可积的函数, (varphi) 是一个 convex function , 所以 (varphi) 的二阶导数是大于 0, 所以对于函数 (varphi) 上没一点的导数的切线, 切线上的点都在函数 (varphi) 以下或者在线上, 现在, 我们定义:

[x_{0}:=int_{Omega} g d mu ]

如果引入随机变量的数字特征, 那么这里就是 (x_0 = E(g(x))) , 对于这个 convex function 函数的切线, 我们可以定义为:

[ax + b leq varphi(x) ]

只有对于切点, 才有:

[ax_0 + b = varphi(x_0) ]

于是对于 (g(x)) 而言, 就有:

[varphi circ g(x) geq ag(x) + b ]

然后对于所有的 (x),

[int_{Omega} varphi circ g d mu geq int_{Omega}(a g+b) d mu=a int_{Omega} g d mu+b int_{Omega} d mu=a x_{0}+b=varphileft(x_{0} ight)=varphileft(int_{Omega} g d mu ight) ]

Form involving a probability density function(概率密度函数的特殊情况)

对于概率密度函数:

[int_{-infty}^{infty} f(x) d x=1 ]

也就是对应的概率空间为, (Omega) 为 $ {-infty} 到 {infty}$ , 函数 (mu) 为 (F(x)), 所以 (dmu) 为 (f(x)dx) , 此时不等式的形式又可以写成下面的形式:

[varphileft(int_{-infty}^{infty} g(x) f(x) d x ight) leq int_{-infty}^{infty} varphi(g(x)) f(x) d x ]

对于一般的形式的时候 (g(x) = x) , 也就是标准的数字特征 (E(X)) 的时候:

[varphileft(int_{-infty}^{infty} x f(x) d x ight) leq int_{-infty}^{infty} varphi(x) f(x) d x ]

这也就是:

[varphi E(X) leq E(varphi(X)) ]