贝叶斯统计推断的阅读笔记

这里将MIT的《概率导论》关于贝叶斯统计推断的阐述总结一下。

1、问题描述：

已知：

(1)参数$Theta$的先验分布$p_{Theta}( heta)$

(2)$ heta$给定的前提下，相关变量$X$的分布：$p_{X|Theta}(x| heta)$

(3)$X$的一系列观测样本：$X_1,X_2,cdots,X_n$

求：

参数$Theta$的后验分布：$p_{Theta|X}( heta|x)=frac{p_{X|Theta}(x| heta)p_{Theta}( heta)}{sum_{ heta'}p_{X|Theta}(x| heta')Pp_{Theta}( heta')}propto p_{X|Theta}(x| heta)p_{Theta}( heta)$

2、点估计：

(1)估计量：随机变量$hatTheta=g(X)$

(2)估计值：随机变量取值$hat heta=g(x)$

(3)均方误差

(a) 对任何估计量$hat heta$，定义均方误差为：$mathrm E[(Theta-hat heta)^2]=mathrm{var}(Theta)+(mathrm E[Theta]-hat heta)^2$

(b) 在有观测值$x$的情况下，定义均方误差为：$mathrm E[(Theta-hat heta)^2|x]=mathrm{var}(Theta|x)+(mathrm E[Theta|x]-hat heta)^2$

(4)常见估计类型：

(a)最大后验估计：$hat heta=argmax_ heta p_{Theta|X}( heta|x)=argmax_ heta p_{X|Theta}(x| heta)p_{Theta}( heta)$

(b)最小均方估计：$hat heta=mathrm E[Theta|x]=sum_ heta heta p( heta|x)$

(c)最小线性均方估计

3、最大后验估计

(1) $hat heta=argmax_ heta p_{Theta|X}( heta|x)=argmax_ heta p_{X|Theta}(x| heta)p_{Theta}( heta)$

(2) 最大后验估计使得选择错误假设的概率达到最小

4、最小均方估计

(1) 无观测值：

当$hat heta=mathrm E[Theta]$时，均方误差达到最小：$mathrm E[(Theta-hat heta)^2]=mathrm{var}(Theta)+(mathrm E[Theta]-hat heta)^2=mathrm{var}(Theta)$

(2) 有观测值$X=x$

当$hat heta=mathrm E[Theta|x]$时，均方误差达到最小：$mathrm E[(Theta-hat heta)^2|x]=mathrm{var}(Theta|x)+(mathrm E[Theta|x]-hat heta)^2=mathrm{var}(Theta|x)+E(hat heta-hat heta)=mathrm{var}(Theta|x)$

(3) 最小均方估计的性质

令$hatTheta=mathrm E[Theta|X]$，误差$ ildeTheta=hatTheta-Theta$，有：

(b) $mathrm E[ ildeTheta]=mathrm E[mathrm E[ ildeTheta|X]]=mathrm E[0]=0$

(c) $mathrm E[hatTheta ildeTheta]=mathrm E[mathrm E[hatTheta ildeTheta|X]]=mathrm E[hatTheta mathrm E[ ildeTheta|X]]=mathrm E[hatThetacdot 0]=0$

(d) $mathrm{cov}(hatTheta, ildeTheta)=mathrm E[hatTheta ildeTheta]-mathrm E[hatTheta]mathrm E[ ildeTheta]=0-mathrm E[hatTheta]cdot 0=0$

(e) $mathrm{var}( ildeTheta)=mathrm E[( ildeTheta-mathrm E[ ildeTheta])^2]=mathrm E[ ildeTheta^2]=mathrm E[mathrm E[ ildeTheta^2|X]]=mathrm E[mathrm E[( ildeTheta-mathrm E[ ildeTheta|X])^2|X]]=mathrm E[mathrm{var}(Theta|X)]$

(f) $mathrm{var}(hatTheta)=mathrm{var}(mathrm E[Theta|X])$

(g) $mathrm{var}(Theta)=mathrm{var}(hatTheta+ ildeTheta)=mathrm{var}(hatTheta)+mathrm{var}( ildeTheta)+2mathrm{cov}(hatTheta, ildeTheta)=mathrm{var}(hatTheta)+mathrm{var}( ildeTheta)=mathrm{var}(mathrm E[Theta|X])+mathrm E[mathrm{var}(Theta|X)]$

5、线性最小均方估计

令$hatTheta=aX+b$，取$a$和$b$使得$mathrm E[(Theta-hatTheta)^2]$最小。

在$a$已经确定的前提下，要获得最小均方，有：

$b=mathrm E[Theta-aX]=mathrm E[Theta]-amathrm E[X]$

代入有

$mathrm E[(Theta-hatTheta)^2]=mathrm E[(Theta-aX-mathrm E[Theta]+amathrm E[X])^2]=mathrm E[((Theta-aX)-E(Theta-aX))^2]=mathrm{var}(Theta-aX)$

$=sigma_Theta^2+a^2sigma_X^2-2acdot mathrm{cov}(Theta,X)$

为求最值，其导数为0：

$2asigma_X-2cdot mathrm{cov}(Theta,X)=0$

因此$a=frac{mathrm{cov}(Theta,X)}{sigma_X^2}= hofrac{sigma_Theta}{sigma_X}$

代入有：

$hatTheta=aX+b=aX+mathrm E[Theta]-amathrm E[X]=mathrm E[Theta]+a(X-mathrm E[X])=mathrm E[Theta]+frac{mathrm{cov}(Theta,X)}{sigma_X^2}(X-mathrm E[X])$

均方估计误差$mathrm E[(Theta-hatTheta)^2]=mathrm{var}(Theta-aX)=sigma_Theta^2+a^2sigma_X^2-2mathrm{cov}(Theta,X)=(1- ho^2)sigma_ heta^2$

6、多变量线性最小均方估计

上述都是单观察值的情形，对于多观察值$(X_1,X_2,cdots,X_n)$，建立联合分布概率比较困难，或者概率分布表达式十分复杂，因此采用简化模型。一种常见的是线性最小均方估计