贝叶斯统计推断的阅读笔记

这里将MIT的《概率导论》关于贝叶斯统计推断的阐述总结一下。

1、问题描述:

已知:

(1)参数$Theta$的先验分布$p_{Theta}( heta)$

(2)$ heta$给定的前提下,相关变量$X$的分布:$p_{X|Theta}(x| heta)$

(3)$X$的一系列观测样本:$X_1,X_2,cdots,X_n$

求:

参数$Theta$的后验分布:$p_{Theta|X}( heta|x)=frac{p_{X|Theta}(x| heta)p_{Theta}( heta)}{sum_{ heta'}p_{X|Theta}(x| heta')Pp_{Theta}( heta')}propto p_{X|Theta}(x| heta)p_{Theta}( heta)$

2、点估计:

(1)估计量:随机变量$hatTheta=g(X)$

(2)估计值:随机变量取值$hat heta=g(x)$

(3)均方误差

  (a) 对任何估计量$hat heta$,定义均方误差为:$mathrm E[(Theta-hat heta)^2]=mathrm{var}(Theta)+(mathrm E[Theta]-hat heta)^2$

  (b) 在有观测值$x$的情况下,定义均方误差为:$mathrm E[(Theta-hat heta)^2|x]=mathrm{var}(Theta|x)+(mathrm E[Theta|x]-hat heta)^2$

(4)常见估计类型:

  (a)最大后验估计:$hat heta=argmax_ heta p_{Theta|X}( heta|x)=argmax_ heta p_{X|Theta}(x| heta)p_{Theta}( heta)$

  (b)最小均方估计:$hat heta=mathrm E[Theta|x]=sum_ heta heta p( heta|x)$

  (c)最小线性均方估计

3、最大后验估计

(1) $hat heta=argmax_ heta p_{Theta|X}( heta|x)=argmax_ heta p_{X|Theta}(x| heta)p_{Theta}( heta)$

(2) 最大后验估计使得选择错误假设的概率达到最小

4、最小均方估计

(1) 无观测值:

当$hat heta=mathrm E[Theta]$时,均方误差达到最小:$mathrm E[(Theta-hat heta)^2]=mathrm{var}(Theta)+(mathrm E[Theta]-hat heta)^2=mathrm{var}(Theta)$

(2) 有观测值$X=x$

当$hat heta=mathrm E[Theta|x]$时,均方误差达到最小:$mathrm E[(Theta-hat heta)^2|x]=mathrm{var}(Theta|x)+(mathrm E[Theta|x]-hat heta)^2=mathrm{var}(Theta|x)+E(hat heta-hat heta)=mathrm{var}(Theta|x)$

(3) 最小均方估计的性质

令$hatTheta=mathrm E[Theta|X]$,误差$ ildeTheta=hatTheta-Theta$,有:

(a) 对任意$X=x$, 有$mathrm E[ ildeTheta|x]=mathrm E[hatTheta-Theta|x]=mathrm E[mathrm E[Theta|x]-Theta|x]=mathrm E[Theta|x]-mathrm E[Theta|x]=0$

(b) $mathrm E[ ildeTheta]=mathrm E[mathrm E[ ildeTheta|X]]=mathrm E[0]=0$

(c) $mathrm E[hatTheta ildeTheta]=mathrm E[mathrm E[hatTheta ildeTheta|X]]=mathrm E[hatTheta mathrm E[ ildeTheta|X]]=mathrm E[hatThetacdot 0]=0$

(d) $mathrm{cov}(hatTheta, ildeTheta)=mathrm E[hatTheta ildeTheta]-mathrm E[hatTheta]mathrm E[ ildeTheta]=0-mathrm E[hatTheta]cdot 0=0$

(e) $mathrm{var}( ildeTheta)=mathrm E[( ildeTheta-mathrm E[ ildeTheta])^2]=mathrm E[ ildeTheta^2]=mathrm E[mathrm E[ ildeTheta^2|X]]=mathrm E[mathrm E[( ildeTheta-mathrm E[ ildeTheta|X])^2|X]]=mathrm E[mathrm{var}(Theta|X)]$

(f) $mathrm{var}(hatTheta)=mathrm{var}(mathrm E[Theta|X])$

(g) $mathrm{var}(Theta)=mathrm{var}(hatTheta+ ildeTheta)=mathrm{var}(hatTheta)+mathrm{var}( ildeTheta)+2mathrm{cov}(hatTheta, ildeTheta)=mathrm{var}(hatTheta)+mathrm{var}( ildeTheta)=mathrm{var}(mathrm E[Theta|X])+mathrm E[mathrm{var}(Theta|X)]$

5、线性最小均方估计

令$hatTheta=aX+b$,取$a$和$b$使得$mathrm E[(Theta-hatTheta)^2]$最小。

在$a$已经确定的前提下,要获得最小均方,有:

$b=mathrm E[Theta-aX]=mathrm E[Theta]-amathrm E[X]$

代入有

$mathrm E[(Theta-hatTheta)^2]=mathrm E[(Theta-aX-mathrm E[Theta]+amathrm E[X])^2]=mathrm E[((Theta-aX)-E(Theta-aX))^2]=mathrm{var}(Theta-aX)$

$=sigma_Theta^2+a^2sigma_X^2-2acdot mathrm{cov}(Theta,X)$

为求最值,其导数为0:

$2asigma_X-2cdot mathrm{cov}(Theta,X)=0$

因此$a=frac{mathrm{cov}(Theta,X)}{sigma_X^2}= hofrac{sigma_Theta}{sigma_X}$

代入有:

$hatTheta=aX+b=aX+mathrm E[Theta]-amathrm E[X]=mathrm E[Theta]+a(X-mathrm E[X])=mathrm E[Theta]+frac{mathrm{cov}(Theta,X)}{sigma_X^2}(X-mathrm E[X])$

均方估计误差$mathrm E[(Theta-hatTheta)^2]=mathrm{var}(Theta-aX)=sigma_Theta^2+a^2sigma_X^2-2mathrm{cov}(Theta,X)=(1- ho^2)sigma_ heta^2$

6、多变量线性最小均方估计

上述都是单观察值的情形,对于多观察值$(X_1,X_2,cdots,X_n)$,建立联合分布概率比较困难,或者概率分布表达式十分复杂,因此采用简化模型。一种常见的是线性最小均方估计

原文地址:https://www.cnblogs.com/milaohu/p/6626140.html