【7】极大似然估计与贝叶斯估计

对于一个正态总体 (N(mu,sigma^2)),若其中两个参数未知，而我们却拥有一组数据的观测值，我们设(mu= heta_1,sigma^2= heta_2),由一元正态分布的概率密度函数我们容易得出此式：

[f(x; heta_1, heta_2)=(sqrt{2pi heta_2})^{-1}expleft{-frac1{2 heta_2}(x- heta_1)^2 ight},xin(-infty,infty) ]

若我们要依据这些独立同分布的随机样本来对参数的未知值进行估计，我们就需要构造出一个函数：(hat{ heta}_i=hat{ heta}_i(X_1,dots,X_n)),我们称统计量(hat{ heta}_i)为( heta_i)的估计量，由于位置参数( heta_i)是数轴上的一个点，于是这样的估计称之为点估计。

矩估计法

设总体分布为(f(x; heta_1,dots, heta_k)),则他的矩在数据量较大时为：

[alpha_m=int x^mf(x; heta_1,dots, heta_k)dx=alpha_m( heta_1,dots, heta_k)approx a_m=sum_{i=1}^nfrac{X_i^m}n ]

得到一个方程组：

[alpha_m( heta_1,dots, heta_k)=a_m,(m=1,dots,k) ]

借此方程组，我们可以得到(k)个根(hat{ heta_i}=hat{ heta_i}(X_1,dots,X_n)),就以(hat{ heta_i})作为( heta_i)的估计，这样定出的估计量叫做矩估计。

极大似然估计

设有总体分布为(f(x; heta_1,..., heta_k),X_1,...,X_n)为这个总体抽出的样本，则样本的分布为：

[L(x_1,...,x_n; heta_1,..., heta_k)=f(x_1; heta_1,..., heta_k)f(x_2; heta_1,..., heta_k)cdots f(x_n; heta_1,..., heta_k) ]

这个函数对不同的(( heta_1,..., heta_k))的取值反映了在观测结果下的参数取值的似然程度，于是我们称(L( heta))为似然函数。于是我们应该用似然程度最大的那个点，即满足条件：

[L(X_1,...,X_n; heta_1^*,..., heta_k^*)=max_{ heta_1,..., heta_k}L(X_1,...,X_n; heta_1,..., heta_k) ]

其中，我们称(( heta_1^*,..., heta_k^*))为(( heta_1,..., heta_k))的极大似然估计。

设(X_1,...,X_n)是从正态总体(N(mu,sigma^2))中抽出的样本，则似然函数为：

[egin{align} L=&prod_{iin N}[(sqrt{2pisigma^2})^{-1}Expleft(-frac1{2sigma^2}(X_i-mu)^2 ight)]\ ln{L}=&sum_{iin N}ln{(2pisigma^2)^{-frac12}}+sum_{iin N}(-frac1{2sigma^2}(X_i-mu)^2)\ =&-frac n2ln{(2pi)}-frac n2ln{(sigma^2)}-frac1{2sigma^2}sum_{iin N}(X_i-mu)^2\ end{align} ]
于是我们可以分别求出偏导，并令其为0：

[egin{cases} frac{partialln{L}}{partialmu}=frac1{sigma^2}sum_{iin N}(X_i-mu)=0\ frac{partialln{L}}{partial(sigma^2)}=-frac n{2sigma^2}+frac1{2sigma^4}sum_{iin N}(X_i-mu)^2=0 end{cases} ]
于是我们分别可以求得：

[mu^*=frac{sum_{i=1}^nX_i}{n}=overline{X}，(sigma^2)^*=frac{sum_{i=1}^n(X_i-overline{X})^2}{n}=m_2 ]

贝叶斯法估计

再进行抽样之前，我们已经对( heta)有了一定的认识，我们称为“先验知识”，而且我们进一步要求，这种先验知识必须用某种概率分布来标示出来，则可以称这个概率分布为“先验分布”或“验前分布”。

关于这个先验分布如何取得，我们暂不讨论。我们再此只介绍已定下了先验密度(h( heta))之后，如何求得参数的估计。

设有总体概率密度(f(X, heta))，从中抽取样本(X_1,...,X_n)，则这组样本的密度可视为在给定参数值时的样本概率，即联合密度可写为：

[h( heta)f(X_1, heta)...f(X_n, heta) ]

则可以算出样本的边缘分布为：

[p(X_1,...,X_n)=int{h( heta)f(X_1, heta)...f(X_n, heta)}d heta ]

于是我们可以得出在给定((X_1,...,X_n))条件下，( heta)的条件密度为：

[h( heta|X_1,...,X_n)=frac{h( heta)f(X_1, heta)...f(X_n, heta)}{int{h( heta)f(X_1, heta)...f(X_n, heta)}d heta} ]

根据贝叶斯学派的观点，这个条件密度代表了我们取得了样本后对参数的知识，它综合了参数的先验信息，以及有样本带来的信息，于是把该式子称为参数的后验密度。

设(X_1,...,X_n)是从正态总体(N(mu,sigma^2))中抽出的样本，(mu)的先验分布为正态分布(N( heta, au^2))则(mu)的贝叶斯估计为：

[h(mu)=(sqrt{2pi} au)^{-1}Exp[-frac1{2 au^2}(mu- heta)^2]\ f(x,mu)=(sqrt{2pi}sigma)^{-1}Exp[-frac1{2sigma^2}(x-mu)^2] ]
于是联合密度函数为：

[h(mu)f(X_1,mu)...f(X_n,mu)=(sqrt{2pi})^{-(n+1)} au^{-1}sigma^{-n}Exp[-frac1{2 au^2}(mu- heta)^2-frac1{2sigma^2}sum_{i=1}^n(x-mu)^2] ]
边缘分布为：

[(sqrt{2pi})^{-(n+1)} au^{-1}sigma^{-n}int Exp[-frac1{2 au^2}(mu- heta)^2-frac1{2sigma^2}sum_{i=1}^n(x-mu)^2]dmu ]
于是，(mu)的后验密度为：

[h(mu|X_1,...,X_n)=frac{Exp[-frac1{2 au^2}(mu- heta)^2-frac1{2sigma^2}sum_{i=1}^n(x-mu)^2]}{int Exp[-frac1{2 au^2}(mu- heta)^2-frac1{2sigma^2}sum_{i=1}^n(x-mu)^2]dmu} ]
而指数函数内可化简为：

[egin{align} &-frac1{2 au^2}(mu- heta)^2-frac1{2sigma^2}sum_{i=1}^n(x-mu)^2\ =&-frac1{2 au^2}mu^2+frac1{ au^2}mu heta-frac1{2 au^2} heta^2-frac1{2sigma^2}sum_{i=1}^n{X}_i^2+frac1{sigma^2}sum_{i=1}^n{X}_imu-frac1{2sigma^2}sum_{i=1}^nmu^2\ end{align} ]
由于(sum_{i=1}^nX_i=noverline{x}),(sum_{i=1}^nmu^2=nmu^2)

[egin{align} =&-(frac1{2 au^2}+frac n{2sigma^2})mu^2+(frac heta{ au^2}+frac{sum_{i=1}^n{X}_i}{sigma^2})mu+left(-frac1{2 au^2} heta^2-frac1{2sigma^2}sum_{i=1}^n{X}_i^2 ight)\ (*)=&-frac12left[(frac1{ au^2}+frac n{sigma^2})mu^2-2(frac heta{ au^2}+frac{noverline{X}}{sigma^2})mu+left(frac{ heta^2}{ au^2}+frac{sum_{i=1}^n{X}_i^2}{sigma^2} ight) ight] end{align} ]
考虑：

[egin{align} frac1{ au^2}+frac n{sigma^2}=A\ frac heta{ au^2}+frac{noverline{X}}{sigma^2}=B\ frac{ heta^2}{ au^2}+frac{sum_{i=1}^n{X}_i^2}{sigma^2}=C end{align} ]
则（*）可化为：

[-frac12left[Amu^2-2Bmu+C ight]=left[-frac{(mu-B/A)^2}{2/A}-frac12(C-B^2/A) ight] ]
于是我们可以得出：

[egin{align} &int Exp[-frac1{2 au^2}(mu- heta)^2-frac1{2sigma^2}sum_{i=1}^n(x-mu)^2]dmu\ =&int_{-infty}^infty Expleft[-frac{(mu-B/A)^2}{2/A}-frac12(C-B^2/A) ight]dmu\ =&Expleft(-frac12(C-B^2/A) ight)(2pi/A)^2 end{align} ]
则将其带入贝叶斯后验密度公式我们可以得到：

[egin{align} &h(mu|X_1,...,X_n)\ =&frac{Exp[-frac1{2 au^2}(mu- heta)^2-frac1{2sigma^2}sum_{i=1}^n(x-mu)^2]}{int Exp[-frac1{2 au^2}(mu- heta)^2-frac1{2sigma^2}sum_{i=1}^n(x-mu)^2]dmu}\ =&(2pi/A)^2 Expleft[-frac{(mu-B/A)^2}{2/A} ight] end{align} ]
由正态分布的定义，我们可以得出对于((mu|X_1,...,X_n)):

[(mu|X_1,...,X_n)sim N(B/A,1/A) o N(frac{noverline{x}sigma^{-2}+ heta au^{-2}}{nsigma^{-2}+ au^{-2}},frac1{nsigma^{-2}+ au^{-2}}) ]
则后验均值即为贝叶斯估计：

[hat{mu}=frac{nsigma^{-2}}{nsigma^{-2}+ au^{-2}}ar{x}+frac{ au^{-2}}{nsigma^{-2}+ au^{-2}} heta ]

上面这个公式推了爷两个多小时也是醉了，由上式可以看出，当( au^2)越大的时候，表示先验信息越不肯定，即(mu)在( heta)附近的波动越大，反之则仅根据先验信息，就有很大的把握说其在( heta)附近不远处。