线性回归模型(习题)

3 线性回归模型

3.1

[sigma(a)=frac{1}{1+exp(-a)}, ]

[ anh(a)=frac{exp(a)-exp(-a)}{exp(a)+exp(-a)}=-1+2frac{1}{1+exp(-2a)}=2sigma(2a)-1. ]

3.2

[mathbf{Phi}(mathbf{Phi}^ ext{T}mathbf{Phi})^{-1}mathbf{Phi}^ ext{T}mathbf{v}=mathbf{Phi}mathbf{u} ]

显然该矩阵将向量(mathbf{v})投射到由矩阵(mathbf{Phi})列向量支撑的空间。另一方面,由于最大似然估计给出的权值向量为:

[mathbf{w}_ ext{ML}=(mathbf{Phi}^ ext{T}mathbf{Phi})^{-1}mathbf{Phi}^ ext{T}mathbf{t}, ]

并且(mathbf{y}=mathbf{Phi}mathbf{w}_ ext{ML}),下面说明最大似然估计给出的结果将(mathbf{t})正交投射到由(mathbf{Phi})确定的子空间。有:

[mathbf{Phi}^ ext{T}(mathbf{y-t})=mathbf{Phi}^ ext{T}left(mathbf{Phi}(mathbf{Phi}^ ext{T}mathbf{Phi})^{-1}mathbf{Phi}^ ext{T}mathbf{t}-mathbf{t} ight)=mathbf{0}. ]

3.3

[E_D(mathbf{w})=frac{1}{2}(mathbf{t-Phi w})^ ext{T}mathbf{R(t-Phi w)}, ]

其中

[mathbf{R}= ext{diag}(r_1,...,r_N). ]

从而

[ abla_mathbf{w}(E_D)=-frac{1}{2}(mathbf{Phi^ ext{T}R(t-Phi w)+(t-Phi w)^ ext{T}RPhi})=0, ]

于是

[mathbf{Phi}^ ext{T}mathbf{RPhi w}=mathbf{Phi}^ ext{T}mathbf{Rt}, ]

[mathbf{w}^{*}=(mathbf{Phi}^ ext{T}mathbf{R}mathbf{Phi})^{-1}mathbf{Phi}^ ext{T}mathbf{R}mathbf{t}. ]

考虑权重(r_n)的意义,首先如果样本噪声依赖于样本点,直觉上方差更大的样本点应该被赋予较低的权值,实际上,如果噪声分布为高斯,(r_n)等同与精度(方差的倒数)。此外,如果数据中存在重复样本点,(r_n)作为分配不同取值样本点的权值系数(有效观测数)。

3.4

[x_n= ilde{x}_n+epsilon_n, ]

[y_n= ilde{y}_n+sum_{i=1}^Dw_iepsilon_n^i, ]

[ ilde{E}=frac{1}{2}sum_{n=1}^N{ ilde{y}_n-y_n+y_n-t_n}^2 ]

[=E+frac{1}{2}sum_{n=1}^N( ilde{y}_n-y_n)^2+sum_{i=1}^N( ilde{y}_n-y_n)(y_n-t_n), ]

由于

[y_n- ilde{y}_nsim mathcal{N}(0,sigma^2sum_{i=1}^Dw_i^2), ]

[(y_n- ilde{y}_n)^2 sim left(sigma^2sum_{i=1}^Dw_i^2 ight)chi^2(1), ]

于是

[mathbb{E}( ilde{E})=E+frac{1}{2}sigma^2sum_{i=1}^Dw_i^2, ]

正则化因子为(lambda=sigma^2/2.)

原文地址:https://www.cnblogs.com/astoninfer/p/9253768.html