The Elements of Statistical Learning第3章导读

1、 公式(3.4)的推导。

    可以直接对公式(3.3)中的$eta_0$求导就得到$hat{eta}_0=ar{y}-eta_1ar{x}$。

    对公式(3.3)中的$eta_0$求导会有:

     $(y_1-hat{eta_0}-hat{eta_1}x_1)x_1+(y_2-hat{eta_0}-hat{eta_1}x_2)x_2ldots+(y_n-hat{eta_0}-hat{eta_1}x_n)x_n$

   将$hat{eta}_0=ar{y}-eta_1ar{x}$代入上面的式子就有:

    $displaystyle sum_{i=0}^n (y_i-(ar{y}-eta_1ar{x})-hat{eta_1}x_i)x_i $

    $displaystyle = sum_{i=0}^n (y_ix_i-ar{y}x_i+eta_1ar{x}x_i-hat{eta_1}x_i^2) $    公式(1)

 注意这样两个事实:

    (a) $displaystyle sum_{i=0}^n left(-x_i+ar{x} ight)ar{x}=sum_{i=0}^n left(-x_iar{x}+ar{x}^2 ight)=0$

    (b) $displaystyle sum_{i=0}^n left(-y_i+ar{y} ight)ar{x}=sum_{i=0}^n left(-y_iar{x}+ar{y}ar{x} ight)=0$

  将这个两个等式代入到公式(1)中,则有

     $displaystyle  sum_{i=0}^nleft(y_ix_i-ar{y}x_i-ar{x}(y_i-ar{y}-left( ar{x}x_i+x_i^2-x_iar{x}+ar{x}^2 ight) hat{eta_1} ight) $ 

     $displaystyle = sum_{i=0}^nleft((y_i-ar{y})(x_i-ar{x})-( x_i-ar{x})^2hat{eta_1} ight)$ 

2、公式(3.7)的由来。

     公式(3.7)反应了样本均值与总体(Population)  均值之间的偏离程度。假设总体的均值为$mu$,方差为$sigma^2$,$mu_1,mu_2,ldots,mu_n$是从总体中抽取的$n$个样本。样本均值$ar{mu}=frac{1}{n}sum_{i=1}^nmu_i$,则有:

$var(ar{mu})=E(ar{mu}-E(ar{mu}))=Eleft(frac{1}{n}sum_{i=1}^n(mu_i-mu) ight)=frac{sigma^2}{n}$

这个公式需要用到这样的事实:各个样本之间是独立的随机变量,比如$x_1,x_2$是独立同分布的随机变量,其对应的分布的期望和方差分别为$mu$和$sigma^2$,则:

  $Eleft(x_1+x_2-E(x_1+x_2) ight)^2=Eleft(x_1+x_2-2mu ight)^2=E(x_1^2)+E(x_2^2)+2E(x_1x_2)-4mu E(x_1)-4mu E(x_2)+4mu^2)$

$=E(x_1^2)+E(x_2^2)-2mu^2=2sigma^2$

注意,由于前面已经假设$x_1,x_2$是独立的,则$E(x_1x_2)=E(x_1)E(x_2)$。

3、公式(3.8)的推导

      可用方差(或标准差的平方)来度量某次参数估计与参数的均值之间差多远(见公式(3.7))。在对参数$hat{eta_1}$的估计中,随机变量是$y_i=f(x_i)+epsilon_i$,其中$var(epsilon_i)=sigma^2$,因此有$varleft(y_i-ar{y} ight)=sigma^2$(注意,这里的$ar{y}$是由多个$y_i$相加而得到,可看成是一个常量,实际上它会接近于$epsilon_i$对应的分布的均值)。 这里假定$epsilon_i$是对同一分布采样得到,而且这些采样是独立的(见原版书Pxx也是这样规定的),则

         $displaystyle sum_{i=1}^n varleft((x_i-ar{x})(y_i-ar{y}) ight)=nsigma^2left(sum_{i=1}^n(x_i-ar{x})^2 ight)$

这个等式成立是利用了这样的定理:若随机变量$xi_1$与$xi_2$互不相关,则$var(xi_1+xi_2)=var(xi_1)+var(xi_2)$。

因此,有

      $SEleft(hat{eta_1} ight)^2=SEleft(frac{sum_{i=1}^nleft((x_i-ar{x})(y_i-ar{y}) ight)}{sum_i^n(x_i-ar{x})} ight)^2=frac{nsigma^2left(sum_{i=1}^n(x_i-ar{x})^2 ight)}{nleft(sum_{i=1}^n(x_i-ar{x})^4 ight)}=frac{sigma^2}{left(sum_{i=1}^n(x_i-ar{x})^2 ight)}$

注意,上面这个等式中的$(x_i-ar{x}$不是随机变量。

    同理可得$SE(hat{eta_0})^2=sigma^2left[frac{1}{n}-frac{ar{x}^2}{left(sum_{i=1}^n(x_i-ar{x})^2 ight)} ight]$

4、公式(3.23)的说明。

     公式(3.23)的分子是一个自由度为p的卡方分布(chi squred distribution);而分每是一个自由度为(n-p-1)的卡方分布,因此它们相除就是F分布,即F(p,n-p-1)。

  

原文地址:https://www.cnblogs.com/ml-cv/p/6131950.html