概率模型

本文讨论的是信号处理中用到的概率模型(Probabilistic Models),主要目的是为了了解概率模型相关的基础概念,以供后续文章展开更为深入的讨论。

符号定义

首先规定概率模型所采用的符号。概率模型所设计的基础符号分为三个部分:

1. Sample Space  样本空间,也就是一个概率模型的总空间,用$Psi$表示,采样空间内包含了所有可能的outcome(输出)$psi$。每一次experiment(实验)能产生一个输出

2. Event Algebra  事件代数,通常简称为event(事件),表示的是采样空间内某些输出的集合。如果在实验中产生的一个输出属于某个事件,我们可以理解为发生了该事件。按照这种说法,$Psi$是一个必然事件,$varnothing$是一个不可能事件。

3. Probability Measure  概率测度。对于事件A,其概率为$P(A)$。

    (a) $P(A)geq 0$

    (b) $P(Psi) = 1$

    (c) $Acap B =varnothing Leftrightarrow P(Acup B)=P(A)+P(B)$

画图能使得概率模型更容易理解

ProbabilityModel

贝叶斯规则Bayes'Rule

贝叶斯公式

有事件A与B,两者的概率分别为$P(A)$与$P(B)$,它们在样本空间有如下表示

image

在事件B已发生的情况下,事件A出现的概率记为$P(A|B)$。对照上方的样本空间,可以发现事件$P(A|B)$就是事件$Acap B$占事件B的比率。

$P(A|B) riangleq frac{P(Acap B)}{P(B)}, qquad P(B) eq 0$

反过来有:

$P(Acap B) = P(A|B)P(B)$

同理也能得到

$P(Acap B) = P(B|A)P(A)$

把上面两个式子组合起来就能得到贝叶斯的一个公式

$P(B|A) = frac{P(A|B)P(B)}{P(A)}$

独立事件

如果事件A与B的概率满足以下条件,我们就认为两者相互独立

$P(A|B) = P(A)qquad orqquad P(Acap B) = P(A)P(B)$

即事件A在整个样本空间内的概率为$P(A)$,事件A在样本空间$B$内的概率仍然是$P(A)$。

image

 

随机变量Random Variables

由于输出$psi$只是集合$Psi$中的元素,为了方便进行数学上的分析,我们需要把$psi$映射到实数$X(psi)$,该实数被称为随机变量,通常称为随机变量$X$,请注意这是一个变量

RandomVariables

Outcome(输出)有可能是离散的,如抛一次硬币只能是正面或者反面;也有可能是连续的,如在记录某时刻的温度时,温度可以是某个温度区间内的任何值。因此有以下随机变量

离散随机变量(Discrete Random Variable)

$X=left{egin{matrix}1, & heads\ 0, & tails end{matrix} ight.$

连续随机变量(Continuous Random Variable)

$X={the exact temprature detected at 12:00 am}$

上面分别是离散以及连续输出到随机变量X的映射,X表示的是一个可能的取值,如上面的离散的情况取值可能为0或者1,而连续的情况取值则可能为区间上的任意一个值。

概率的相关函数

累计分布函数Cumulative Distribution Functions

累计分布函数(CDF)的输出是从$-infty$到变量$x$的累计概率

$F_X(x) = P(Xleq x)$

因此有

$P(a<Xleq b) = F_X(b) – F_X(a)$

CDF在负无穷端的值为$F_X(-infty) = 0$,在正无穷端的值为$F_X(infty) = 1$。

CDF

如上图是CDF的一个例子。在点$x_1$处的概率为$P(X=x_1) = F_X(x_1)-F_X(x_1-)$,由此可见上图中$P(X=0)=1$。

结合贝叶斯公式,有

$F_{X|L}(x|L_i) = P(Xleq x|L=L_i) = frac{P(Xleq x, L=L_i)}{P(L=L_i)}$

$F_{X|L}(x|L_i)$表示的是已知$L=L_i$的情况下的CDF。

概率密度函数Probability Density Functions

对CDF求导就可以得到概率密度函数PDF。

$f_X(x) = frac{dF_X(x)}{dx}$

PDF不可能输出负值,因为CDF是一个非递减的函数。如果CDF像上图一样非连续,那么PDF在非连续点处的值就是一个脉冲(Dirac impulse)。

image

按照PDF的定义,有

$P(a<Xleq b) =F_X(x)Big|_a^b =  displaystyle{int_a^bf_X(x)dx}$

在$x$点处的的概率为

$P(x)  = displaystyle{int_{x-dx}^{x}f_X(x)dx}approx f_X(x)dx$

概率质量函数Probability Mass Function

如果概率模型的随机变量$X$是离散的,该概率模型的PDF将会如上图一样,只会在特定的值上出现脉冲,其余的值为0。这种情况用PMF就能表示,PMF是一个离散函数,只需要记录某点上的概率

$pX(x_j) = P(X=x_j)$

上面的例子用PMF来表示如下图

image

联合分布随机变量Jointly Distributed Random Variables

定义

概率模型通常都有多个随机变量,如下是有两个随机变量X与Y的概率模型的CDF

$F_{X,Y}(x,y) = P(Xleq x, Yleq y)$

对应的PDF为

$f_{X,Y}(x, y) = frac{partial^2 F_{X,Y}(x,y) }{partial xpartial y}$

Gaussian3D

单边PDF $f_X(x)$的定义就是随机变量$X$的PDF,它跟联合密度函数$f_{X,Y}(x,y)$之间的关系是

$f_X(x) = displaystyle{int_{-infty}^{infty}f_{X,Y}(x,y)dy}$

同样,$f_Y(y)$也有这种关系。

概率表达

在点$(x,y)$上的概率为

$P(x, y) approx f_{X,Y}(x,y)dxdy$

贝叶斯规则

在已知$Y=y$(事件B)的情况下,发生$X=x$(事件A)的概率为

$P(A|B) = P(X=x|Y=y)=F_{X|Y}(X=x|Y=y) $

同时又有

$P(A|B) = frac{P(Acap B)}{P(B)}=frac{P(X=x, Y=y)}{P(Y=y)}=frac{f_{X,Y}(x,y)dxdy}{f_Y(y)dy}$

如果我们假设随机变量$Y$已经确定$Y=y$,那么$P(X|Y=y)=F_{X|Y}(X|Y=y)$就是一个关于随机变量$X$的函数,该函数对$x$求导得到的是:已知$Y=y$的情况下,随机变量X的概率密度函数$f_{X|Y}(X|Y=y)$,有下面的式子

$f_{X|Y}(x|y) = frac{dF_{X|Y}(X=x,Y=y)}{dx}=frac{f_{X,Y}(x,y)dxdy}{f_Y(y)dydx} = frac{f_{X,Y}(x,y)}{f_Y(y)}$

进一步推导还能得到

$egin{align*}
P(B|A)
&= frac{f_{X,Y}(x,y)dxdy}{f_X(x)dx}\
&=frac{f_{X,Y}(x,y)dy}{f_X(x)}\
&=frac{f_{X|Y}(x|y) f_Y(y)dy}{f_X(x)}\
&=frac{f_{X|Y}(x|y)P(Y=y)}{f_X(x)}\
&=frac{f_{X|Y}(x|y)P(B)}{f_X(x)}
end{align*}$

独立事件

如果包含随机变量$X$与$Y$的联合分布的CDF或者PDF满足如下条件,则$X$与$Y$所属的事件相互独立

$f_{X,Y}(x,y) = f_X(x)f_Y(y)$

$F_{X,Y}(x,y) = F_X(x)F_Y(y)$

期望(Expectations)、矩(Moments)以及方差(Variance)

期望

The expectation — also termed the expected or mean or average value, or the first-moment — of the real-valued random variable X is denoted by $E[X]$ or $overline{X}$ or $mu_X$, and defined as

$E[X] = overline{X} = mu_X = displaystyle{int_{infty}^{infty}xf_X(x)dx}$

期望具有线性性质

$egin{align*}E[X+Y] &=int_{-infty}^{infty}xf_{X+Y}(x)dx\
&=int_{-infty}^{infty}xBig(f_X(x)+f_Y(x)Big)dx\
&=int_{-infty}^{infty}xf_X(x)dx+int_{-infty}^{infty}xf_Y(x)dx\
&=E[X]+E[Y]
end{align*}$

方差

The variance or centered second-moment of the random variable $X$ is denoted by $sigma^2$ and defined as

$egin{align*}sigma^2 &=E[(X-mu_X)^2]\
&= E[X^2-2Xmu_X+mu_X^2]\
&= E[X^2]-2mu_XE[X]+mu_X^2\
&= E[X^2]-2mu_X^2+mu_X^2\
&= E[X^2]-mu_X^2
end{align*}$

We refer to $E[X2]$ as the second-moment of $X$.

 

贝叶斯规则

我们这里主要是为了推导得到一条公式

$color{red}{E[X] = E_{Y}[E_{X|Y}[X|Y]]}$

其中$E_{X|Y}[X|Y]$,即$E[X|Y]$表示是已知随机变量$Y$所代表的事件发生的情况下,随机变量$X$的期望值。按照期望的定义有如下公式

$egin{align*}
E[X|Y] &= int_{-infty}^{infty}xf_{X|Y}(x|y)dx\
&=int_{-infty}^{infty}xfrac{f_{X,Y}(x,y)}{f_Y(y)}dx\
&=g(y)
end{align*}$

因此$E[X|Y]$是一个以$y$为变量的函数,我们可以认为是:在$Y=y$的前提下,随机变量$X$的期望值是与$y$有关的。

证明

$egin{align*}
E_{Y}[E_{X|Y}[X|Y]] &=int_{-infty}^{infty}g(y)f_Y(y)dy\
&= int_{-infty}^{infty}left{int_{-infty}^{infty}xf_{X|Y}(x|y)dx ight}f_Y(y)dy\
&=int_{-infty}^{infty}left{int_{-infty}^{infty}xfrac{f_{X,Y}(x,y)}{f_Y(y)}dx ight}f_Y(y)dy\
&=int_{-infty}^{infty}int_{-infty}^{infty}xf_{X,Y}(x,y)dxdy\
&=int_{-infty}^{infty}xint_{-infty}^{infty}f_{X,Y}(x,y)dydx\
&=int_{-infty}^{infty}xf_X(x)dx\
&=E[X]
end{align*}$

这说明我们在不知道$f_X(x)$的情况下,通过$f_Y(y)$以及$g(y)$就能得到随机变量$X$的期望值。

独立事件

有两个随机变量分别为$Y,Z$,令$X=h(Y,Z)$,那么$X$也是一个随机变量,其期望为$E[X]$。现假设$h(y,z) = g(y)ell(z)$,并且$Y$与$Z$相互独立,因此有

$egin{align*}
E[X]&= E[g(y)ell(z)] \ &=int_{-infty}^{infty}int_{-infty}^{infty}g(y)ell(z)f_{Y,Z}(y,z)dydz\
&=int_{-infty}^{infty}int_{-infty}^{infty}g(y)ell(z)f_{Y}(y)f_{Z}(z)dydz\
&=int_{-infty}^{infty}g(y)f_Y(y)dyint_{-infty}^{infty}ell(z)f_Z(z)dz\
&=E[g(y)]E[ell(z)]
end{align*}$

相关性与协方差 correlation and covariance

在对随机变量进行处理时,很多情况下都无法知道该随机变量的PDF,此时我们只能通过expectation以及variance对随机变量进行描述,expectation代表的是随机变量的location,即随机变量的中心点;variance代表的是随机变量的spread,即随机变量的扩散程度。这两个值我们能通过对随机变量的反复实验然后求得。

而对于联合分布的随机变量$(X,Y)$,我们能得到其location为$(E[X],E[Y])$,不过spread就比较难表达了,因为$sigma_X$以及$sigma_Y$都只是单个随机变量的方差,而$X$与$Y$之间也有可能存在某种相关关系,因此联合分布的spread不应该把随机变量分开进行单独讨论。

联合随机变量的location与spread

为了表达联合分布的spread,下面我们假设有一个随机变量$Z$,有

$Z=alpha X + eta Y$

其中$alpha$与$eta$分别为随机变量$X$与$Y$的系数,可以选任意常数。上面关于随机变量$Z$的式子也能看作是一条关于$X$与$Y$的直线,当选取固定的$Z$后,在$X,Y$平面上就能得到一条直线,而通过改变$Z$就能覆盖整个$X,Y$平面。

Gaussian3D

经过该直线并垂直于XY平面的平面与联合PDF曲面相交所得的曲线,展示的就是当$Z$取某个固定值时,随机变量$X$与$Y$的取值的概率。对该曲线进行积分能得到$Z$取该固定值的概率。比如说

$P_Z(z=0) = displaystyle{int_{alpha x+eta y=0}f_{X,Y}(x,y)dxdy}$

不过这并不是我们要讨论的重点。

对于随机变量$Z$,有expectation为

$E[Z] = E[alpha X + eta Y] = alpha E[X] + eta E[Y]$

有variance为

$egin{align*}
sigma_Z^2 &= E[(Z-E[Z])^2]\
&=E[Z^2-2E[Z]Z+(E[Z])^2]\
&=E[Z^2]-2(E[Z])^2+(E[Z])^2\
&=E[Z^2]-(E[Z])^2\
&=E[(alpha X+eta Y)^2]-(alpha E[X]+eta E[Y])^2\
&=E[alpha^2X^2+2alphaeta XY+eta^2Y^2]-Big{alpha^2(E[X])^2+eta^2(E[Y])^2+2alphaeta E[X]E[Y]Big}\
&=alpha^2 E[X^2]+2alphaeta E[XY]+eta^2E[Y^2]-alpha^2(E[X])^2-2alphaeta E[x]E[Y]-eta^2(E[Y])^2\
&=alpha^2Big{E[X^2]-(E[X])^2Big}+eta^2Big{E[Y^2]-(E[Y])^2Big}+2alphaetaBig{E[XY]-E[X]E[Y]Big}\
&=alpha^2Big{E[(X-E[X])^2]Big}+eta^2Big{E[(Y-E[Y])^2]Big}+2alphaetaBig{E[(X-E[X])(Y-E[Y])]Big}\
&=alpha^2sigma_X^2+eta^2sigma_Y^2+2alphaetasigma_{X,Y} qquad letting sigma_{X,Y}=E[(X-E[X])(Y-E[Y])]
end{align*}$

其中$sigma_{X,Y}$被称为covariance,记为$C_{X,Y}$或者$cov(X,Y)$有

$color{red}{sigma_{X,Y} =C_{X,Y}= E[(X-E[X])(Y-E[Y])] = E[XY]-E[X]E[Y]}$

$E[XY]$被称为correlation,记为$R_{X,Y}$。

$color{red}{R_{X,Y} = E[XY]}$

根据前面的推导,只要我们知道$sigma_X^2,sigma_Y^2,sigma_{X,Y}$的值,就能得到联合随机变量的spread。这其中只有$sigma_{X,Y}$是新出现的概念。另外,从前面的推导中我们又能得知$sigma_{X,Y}$可以通过$R_{X,Y}$计算得到。

相关系数correlation coefficient $ ho$

$ ho$的定义

前面已经得到随机变量$Z$的variance为

$sigma_Z^2 = alpha^2sigma_X^2+eta^2sigma_Y^2+2alphaetasigma_{X,Y}$

我们这里把$sigma_Z^2$作为纵轴,$alpha$作为横轴,其余参数当成常量,得到一个一元二次方程。

correlation_coeff

由于variance必定大于0,因此有

$frac{-(b^2-4ac)}{4a}=frac{-[(2etasigma_{X,Y})^2-4sigma_X^2 eta^2sigma_Y^2]}{4eta^2sigma_X^2}=frac{eta^2sigma_X^2sigma_Y^2-eta^2sigma_{X,Y}^2}{sigma_X^2}geq 0$

整理可得到

$color{red}{| ho| = left|frac{sigma_{X,Y}}{sigma_X sigma_Y} ight|leq 1}$

$ ho$就是correlation coefficient,虽然我们把它叫做correlation coefficient,不过从上面的式子看来,$ ho$跟covariance的关系更密切。

$ ho$其实就相当于对covariance进行了标准化。

随机变量标准化后的随机变量的expectation为0,variance为1,即

$V = frac{X-mu_X}{sigma_X},qquad W = frac{Y=mu_X}{sigma_Y}$

expectation以及variance的变化如下

$E[V] = Eleft[frac{X-mu_X}{sigma_X} ight] = frac{E[X]-mu_X}{sigma_X}=0$

$sigma_V^2=E[(V-E[V])^2]=E[V^2]=Eleft[frac{(X-mu_X)^2}{sigma_X^2} ight]=Eleft[frac{sigma_X^2}{sigma_X^2} ight ]=1$

correlation coefficient的变化如下

$egin{align*}sigma_{V,W}&=E[VW]-E[V]E[W]=E[VW]\
&=Eleft[frac{X-mu_X}{sigma_X}cdotfrac{Y-mu_Y}{sigma_Y} ight]\
&=Eleft[frac{XY-Xmu_Y-Ymu_X+mu_Xmu_Y}{sigma_Xsigma_Y} ight]\
&=frac{E[XY]-E[X]E[Y]}{sigma_Xsigma_Y}\
&=frac{sigma_{X,Y}}{sigma_Xsigma_Y}end{align*}$

这也证明了即使随机变量加上或者乘以一个常数,这并不会改变其correlation coefficient。

$ ho$的实际意义

我们容易知道correlation的值$E[XY]$如果大于0,则表明$X$与$Y$倾向于有相同的符号;如果correlation的值小于0,则表明$X$与$Y$倾向于有相反的符号。那么对于$sigma_{X,Y} = E[(X-mu_X)(Y-mu_Y)]$,如果大于0,则表明$X-mu_X$与$Y-mu_Y$倾向于有相同的符号,当$X=Y$时,$sigma_{X,X}=sigma_X^2$,反之亦然。

同理,$ ho$作为covariance的标准化的值

  1. 如果$ ho>0$则表明$X-mu_X$与$Y-mu_Y$倾向于有相同的符号
  2. 如果$ ho$越接近1,$X$与$Y$之间会有更紧密的关系(正相关)
  3. 反之,如果$ ho$越接近-1,$X$与$Y$之间的关系趋于相反(负相关)
  4. 如果$ ho=0$,则有$sigma_{X,Y}=0$,$E[XY]=E[X]E[Y]$,表明$X$与$Y$相互独立
 

相关性的向量空间分析

从随机变量到向量空间的转换规则

我们可以把随机变量看作向量,把correlation看作向量的内积,内积用尖括号来表示。因此有

$< extbf{X}, extbf{Y}> = E[XY] = R_{X,Y}$

内积满足交换律以及分配律

$< extbf{X}, extbf{Y}> = < extbf{Y}, extbf{X}>$

$< extbf{X},a_1 extbf{Y}_1+a_2 extbf{Y}_2>=a_1< extbf{X}, extbf{Y}_1>+a_2< extbf{X}, extbf{Y}_2>$

如果两个向量正交,那么他们的内积为0

$< extbf{X}, extbf{Y}>=E[XY]=0$

向量的长度,也就是向量的模为

$left| extbf{X} ight|=sqrt{< extbf{X}, extbf{X}>}=sqrt{E[X^2]}$

 

实用的向量空间

下面我们令向量$widetilde{ extbf{X}}$以及$widetilde{ extbf{Y}}$分别为

$widetilde{ extbf{X}}=X-mu_X ,qquad widetilde{ extbf{Y}}=Y-mu_Y$

这两个向量的模分别为

$||widetilde{ extbf{X}}||=sqrt{E[(X-mu_X)^2]}=sigma_X,qquad ||widetilde{ extbf{Y}}||=sqrt{E[(Y-mu_Y)^2]}=sigma_Y$

那么这两个向量的内积就是

$<widetilde{ extbf{X}}, widetilde{ extbf{Y}}>=E[(X-mu_X)(Y-mu_Y)]=sigma_{X,Y}$

按照向量的定义,内积与模之间有如下关系

$<widetilde{ extbf{X}},widetilde{ extbf{Y}}>=||widetilde{ extbf{X}}|| cdot||widetilde{ extbf{Y}}||cdot cos( heta)$

$sigma_{X,Y}=sigma_X sigma_Y cos( heta)$

其中$ heta$为向量$widetilde{ extbf{X}}$与向量$widetilde{ extbf{Y}}$之间的夹角。根据前面已得到的结论,我们得知$ ho=cos( heta)$,而又由于$ ho$满足$-1leq ho leq 1$,因此把随机变量推广到向量空间的这种做法正好合适。

image

在该这里假设的向量空间中,$omega_{X,Y}=0$表明$widetilde{ extbf{X}}与向量widetilde{ extbf{Y}}$正交。

Reference:

Alan V. Oppenheim: Signals, Systems and Inference, Chapter 7: Probabilistic Models

原文地址:https://www.cnblogs.com/TaigaCon/p/8887931.html