数据分析的统计基础3

期望与方差

随机变量的期望

随机变量的期望的概念类似于加权平均,其所有的可能取值由他们的概率加权。

离散型随机变量的期望:如果(X)是频率函数为(p(x))的离散型随机变量,且满足(sum limits_{i}|x_I|p(x_i) < infty),则(X)的期望,记为(E(X)),是:

[E(X) = sum limits_ix_ip(x_i) ]

如果和式发散,则期望无定义。(E(X))也称为(X)的均值,通常记作(mu)(mu_X),将其视作频率函数的质量中心有助于我们理解(X)的期望。

  • 几何随机变量的期望:(E(X) = frac{1}{p})

    推导:(X)是服从几何分布的随机变量,所以(P(X=k) = (1-p)^{k-1}p),则

[E(X) = sum limits_{k=1}^{infty}k(1-p)^{k-1}p=psum limits_{k=1}^{infty}k(1-p)^{k-1} ]

(1-p=q),因为(kq^{k-1}=frac{d}{dq}q^k),交换求和和微分运算的顺序,得到:

[E(X) = pfrac{d}{dq}sum limits_{k=1}^{infty}q^k=pfrac{d}{dq}frac{q}{1-q}=frac{p}{(1-q)^2}=frac{1}{p} ]

  • 泊松随机变量的期望:(E(X) = lambda)

    推导:

    [E(X) = sum limits_{k=0}^{infty}frac{klambda^k}{k!}e^{-lambda}=lambda e^{-lambda}sum limits_{k=1}^{infty}frac{lambda^{k-1}}{(k-1)!}=lambda e^{lambda}sum limits_{j=0}^{infty}frac{lambda^j}{j!} ]

    因为(sum limits_{j=0}^{infty} (lambda^j/j!)=e^lambda),所以得(E(X) = lambda)。因此,泊松分布的参数(lambda)可以解释为平均数。

连续型随机变量的期望:(连续型随机变量期望的定义是离散情形的直接推广:离散和被连续积分替代) 如果(X)是密度函数为(f(x))的连续型随机变量,且满足(int |x|f(x)dx < infty),那么:

[E(X) = int _{-infty}^{infty}xf(x)dx ]

如果积分发散,那么期望无定义。(E(X))同样视为密度质量的中心。

  • 伽马随机变量的期望:(E(X)= frac{alpha}{lambda})

    推导:如果(X)服从参数为(alpha)(lambda)的伽马密度,那么

    [E(X)=int_{0}^{infty}frac{lambda^alpha}{Gamma(alpha)}x^alpha e^{-lambda x}dx ]

    一旦我们意识到(lambda^{alpha+1}x^{alpha}e^{-lambda x}/Gamma(alpha+1))是伽马密度,且全积分等于(1)。因此我们有:

    [int_{0}^{infty}x^alpha e^{-lambda x}dx = frac{Gamma(alpha + 1)}{lambda ^{alpha + 1}} ]

    由此可得

    [E(X)= frac{lambda ^ alpha}{Gamma(alpha)} left[ frac{Gamma(alpha + 1)}{lambda ^ {alpha + 1}} ight] ]

    最后利用(Gamma(alpha + 1) = alpha Gamma(alpha)),得到(E(X)=frac{alpha}{lambda})

对于指数密度,(alpha=1),因此(E(X)=1/lambda)。它的中位数是(log2/lambda),均值和中位数都可以视作(X)的“代表值”,但它们所度量的分布性质是不同的。

  • 正态随机变量的期望:(E(X) = mu)

    推导:

    [E(X) = frac{1}{sigma sqrt{2pi}}int_{-infty}^{infty}xe^{-frac{1}{2}frac{(x-mu)^2}{sigma^2}}dx ]

    利用变量变换(z=x-mu),则(dz = d(x-mu))。方程变为:

    [E(X) = frac{1}{sigmasqrt{2pi}}int_{-infty}^{infty}ze^{-z^2/2sigma^2}dz+frac{mu}{sigmasqrt{2pi}}int_{-infty}^{infty}e^{-z^2/2sigma^2}dz ]

    上式第一个积分为奇函数,积分值为(0);第二个积分中,由于正态密度积分等于(1),所以积分值为(mu)

期望值可以解释为长期平均。后续将证明当(n o infty)时,(ar X = sumlimits_{i=1}^{n}X_i / n o E(X))

马尔科夫不等式:如果随机变量(X)满足(P(X geq 0) = 1),且(E(X))存在,那么(P(X geq t) leq E(X)/t)

推导:(只证明离散情形,连续情形完全类似):

[E(X) = sum limits_xxp(x)=sum limits_{x<t}xp(x) + sum limits_{x geq t}xp(x) ]

因为(X)只取非负值,所以上式的每一项都是非负的。因此

[E(X) geq sum limits_{xgeq t}xp(x) geq sum limits_{xgeq t}tp(x) =tP(X geq t) ]

得证!

这个不等式告诉我们,(X)大于(E(X))的概率是较小的。假设在定理中,我们令(t = kE(X)),根据结论,有(P(X geq kE(x)) leq 1/k),无论何种概率分布,这个结论对任何非负随机变量都成立。

随机变量函数的期望

假设(Y=g(X))

  • 如果(X)是具有频率函数(p(x))的离散随机变量,且满足(sum|g(x)|p(x) < infty),那么

    [E(Y) = sum limits_x g(x)p(x) ]

  • 如果(X)是密度函数为(f(x))的连续随机变量,且满足(int_{-infty}^{infty}|g(x)|f(x)dx < infty),那么

    [E(Y) = int_{-infty}^{infty}g(x)f(x)dx ]

证明略。

随机变量线性组合的期望

期望最有用的性质是它的线性运算。

如果(Y=aX+b),那么(E(Y) = a E(X) + b),更一般地,这个性质可以推广到随机变量的线性组合。

如果(X_1,X_2,...,X_n)是具有期望(E(X_i))的联合分布随机变量,(Y)(X_i)的线性函数,(Y = a + sum limits_{i=1}^{n}b_iX_i),那么有:

[E(Y) = a +sum limits_{i=1}^{n}b_iE(X_i) ]

  • 二项分布的期望:(E(Y) = np)

    推导:(E(Y) = sum limits_{i=1}^{n} inom{n}{k}p^k(1-p)^{n-k})

    和式的计算不是显而易见的。但我们可以将(Y)表示成伯努利随机变量(X_i)之和,其中根据第(i)次试验成功与否取值(1)(0)(Y = sum limits_{i=1}^{n}X_i),因为(E(X_i)=0 imes(1-p) + 1 imes p = p),得(E(Y) = np)

方差和标准差

随机变量的期望是它的平均值,可以视作密度或者频率函数的中心。因此,期望有时称为位置参数(location parameter)。分布的中位数也是位置参数,且不一定等于均值。另一个常用参数是随机变量的标准差(standard deviation),它描述概率分布关于中心的发散程度,度量随机变量偏离期望的平均幅度。

如果(X)是具有期望(E(X))的随机变量,只要下述期望存在,(X)的方差就是:

[Var(X) = Eleft{ [X - E(X)]^2 ight} ]

(X)的标准差就是方差的平方根。

  • 如果(X)是频率函数为(p(x))的离散随机变量,期望值(mu = E(X)),根据定义有:

    [Var(X) = sum_i (x_i - mu )^2p(x_i) ]

  • 如果(X)是密度函数为(f(x))的连续随机变量,期望值(mu=E(X)),那么:

    [Var(X) = int_{-infty}^infty(x-mu)^2f(x)dx ]

方差通常记为(sigma^2),标准差为(sigma)。根据上面的定义,(X)的方差就是平均偏离其均值的平均值。方差的单位为随机变量的平方,标准差的单位与随机变量一致。

随机变量的方差在线性变换的条件下的转换方式比较简单。

如果(Var(X))存在,(Y=aX+b),那么(Var(Y) = b^2 Var(X))

推导:因为(E(Y)=a + b E(X))

[egin{align*} Var(Y) &= E[(Y-E(Y))^2] =Eleft{[a+bX - (a + b E(X))]^2 ight} \ &=Eleft{ b^2[X-E(X)]^2 ight}=b^2Eleft{ [X-E(X)]^2 ight} = b^2 Var(X) end{align*} ]

  • 伯努利分布的方差:(Var(X) = (0-p)^2 imes (1-p) + (1-p) ^ 2 imes p = p(1-p)),在(p=1/2)处取得最大值。

  • 正态分布的方差:正态分布的期望为(E(X) = mu)

    [Var(X) = E[(X-mu)^2] = frac{1}{sigma sqrt{2pi}}int_{-infty}^{infty}(x-mu)^2expleft[-frac{1}{2}frac{(x-mu)^2}{sigma^2} ight]dx ]

    利用变量变换(z = (x-mu) / sigma),右边变为

    [frac{sigma^2}{sqrt{2pi}}int_{-infty}^{infty}z^2e^{-z^2/2}dz ]

    再利用变量变换,令(u= z^2/2),将积分化简为伽马函数,得到(Var(X) = sigma^2)
    方差的另一种计算方法:如果(X)的方差存在,它也也可以计算如下:

[Var(X) = E(X^2) - [E(X)]^2 ]

推导:记(E(X) = mu)

[Var(X) = E[(X- mu)^2]= E(X^2 - 2mu X + mu^2) ]

利用期望的线性性质,上式变为:

[Var(X)=E(X^2)-2mu E(X) +mu^2=E(X^2) - mu ^ 2 ]

切比雪夫不等式:(Chebyshev's inequality),方差和标准差刻画了随机变量可能取值的发散程度,切比雪夫不等式给出了量化的表述。令(X)是均值为(mu),方差为(sigma^2)的随机变量。对任意的(t>0),有:

[P(|X-mu|>t) leq frac{sigma^2}{t^2} ]

证明 令(Y = (X - mu)^2),那么(E(Y) = sigma^2),由马尔科夫不等式有(P(Y geq t^2) leq frac{E(Y)}{t^2}),即得证。

上式表名,如果(sigma^2)非常小,就会有较高的概率保证(X)不会偏离(mu)太远;对于另一种解释,我们可以设定(t=ksigma),不等式变为:

[P(|X-mu| geq ksigma) leq 1/k^2 ]

则有结论:

  • (k=2)时,在((mu - 2sigma,mu + 2 sigma))范围内的概率为(75\%),范围外的概率不超过(25\%)

  • (k=3)时,在((mu - 3sigma,mu + 3 sigma))范围内的概率为(8/9),范围外的概率不超过(1/9)

  • (k=4)时,在((mu - 4sigma,mu + 4sigma))范围内的概率为(15/16),范围外的概率不超过(1/16)

  • (k=10)时,在((mu - 10sigma,mu + 10sigma))范围内的概率为(99/100),范围外的概率不超过(1/100)

切比雪夫不等式有如下结论:如果(Var(X)=0),那么(P(X=u)=1)
证明:(反证法)。假设(P(X=mu)<1)。那么对于某个(varepsilon > 0,P(|X-mu| geq varepsilon) > 0);然而,由切比雪夫不等式,对任意(varepsilon > 0)

[P(|X-mu| geq varepsilon) = 0 ]

测量误差模型

(X)度量某个测量,用(x_0)记为测量的真实值,(eta)表示系统误差,是一个常数,(varepsilon)表示随机误差,(varepsilon)是一个随机变量,具有(E(varepsilon) = 0)(Var(varepsilon)=sigma^2),那么度量(X)的模型如下:

[X = x_0 + eta + varepsilon ]

且有(E(X)=x_0+eta)(Var(X) = sigma^2)

(eta)常称为测量过程中的偏倚(bias),影响误差大小的因素分别为偏倚bias和方差(sigma^2)。完美的测量(基本不存在)具有(eta=0)(sigma^2=0)

测量误差的全部度量通常用均方误差(mean squared error)来表示,定义为:

[MSE = E[(X - x_0)^2] ]

均方误差是(X)偏离(x_0)平方的期望,按照贡献程度可以将其分解成偏差和方差。

(MSE = sigma^2 + eta^2)

证明:(E[(X-x_0)^2] = Var(X-x_0) + [E(X-x_0)]^2 = Var(X-x_0) + eta^2 = sigma^2 + eta ^2)

协方差和相关

随机变量的方差是其变异性的度量,两个随机变量的协方差(covariance)是它们联合变异性的度量,或是它们关联度的度量。

协方差:如果(X)(Y)是分别具有期望(mu_X)(mu_Y)的随机变量,只要下述期望存在,(X)(Y)的协方差是:

[Cov(X,Y)=E[(X-mu_X)(Y-mu_Y)] ]

协方差是(X)与其均值离差和(Y)与其均值离差的乘积平均值。如果两个随机变量的关联是正向的,也就是当(X)大于它的均值时,(Y)也倾向于大于它的均值,协方差是正的,当两个随机变量的关联是负向的,也就是(X)大于它的均值时,(Y)却小于它的均值,协方差是负的。

通过乘积展开和期望的线性性质,我们得到协方差的另一种表达形式:

[egin{align} Cov(X,Y) &= E(XY - Xmu_Y - Ymu_X+mu_Xmu_Y) \ &=E(XY) - E(X) mu_Y-E(Y) mu X+ mu X mu Y \ &=E(XY) - E(X)E(Y) end{align} ]

特别地,如果(X)(Y)独立,那么(E(XY)=E(X)E(Y))(Cov(X,Y)=0)

相关系数:correlation coefficient定义在协方差的基础上。如果(X)(Y)的方差和协方差都存在,且方差非(0),那么(X)(Y)的相关系数记为( ho),定义如下:

[ ho = frac{Cov(X,Y)}{sqrt{Var(X)Var(Y)}} ]

注意,因为定义为比值形式,相关系数无量纲。利用之前介绍的方差和协方差的性质,如果(X)(Y)都进行线性变换,相关系数不会发生改变。因为相关系数不依赖于测量单位,因此在多数情况下,( ho)要比协方差更易于度量相关联性。

经常使用如下的记号和关系式,(X)(Y)的标准差分别记为(sigma_X)(sigma_Y),它们的协方差记为(sigma_{XY}),因此有

[ ho = frac{sigma_{XY}}{sigma_Xsigma_Y} ]

[sigma_{XY} = ho sigma_X sigma_Y ]

(-1 leq ho leq 1),进一步,( ho=pm 1)当且仅当(P(Y=a+bX)=1),其中(a)(b)为某个常数。

证明:因为随机变量的方差都是非负的,所以:

[egin{align} 0 &leq Var(frac{X}{sigma_X} + frac{Y}{sigma_Y}) \ &= Var(frac{X}{sigma_X}) + Var(frac{Y}{sigma_Y}) + 2Cov(frac{X}{sigma_X},frac{Y}{sigma_Y}) \ &= frac{Var(X)}{sigma_X^2} + frac{Var(Y)}{sigma_Y^2} + frac{2Cov(X,Y)}{sigma_Xsigma_Y} \ &= 2(1+ ho) end{align} ]

由上式,我们得到( ho geq -1),类似地,根据(Var(frac{X}{sigma_X} - frac{Y}{sigma_Y}) geq 0)可得( ho leq 1)

原文地址:https://www.cnblogs.com/evian-jeff/p/11388710.html