bootstrap

bootstrap的数学定义

设随机样本$X=[x_{1},x_{2},...,x_{n}]$是独立同分布样本，$x_{i}sim F(x),i=1,2,...,n$。$R(X,F)$为某个预先选定的随机变量，是X和F的函数。现要求根据观测样本估计$R(X,F)$的分布特征。例如，设$ heta = heta(F)$为总体分布$F$的某个参数，$F_{n}$是观测样本$X$的经验分布函数，$hat{ heta}=hat{ heta}(F_{n})$是$ heta$的估计，记估计误差为$R(X,F)=hat{ heta}(F_{n})- heta(F)$，现由观测样本$X=[x_{1},x_{2},...,x_{n}]$估计$R(X,F)$的分布特征，bootstrap方法实质就是一个再抽样过程，计算$R(X,F)$分布特征的基本步骤归纳如下：

1.基于样本进行自助抽样，构造出M个自助抽样子样本集，即bootstrap样本。

2.基于M个bootstrap样本，得到所求参数$ heta$的M个取值，进而求出参数$ heta$的分布及其统计量。

由抽样过程可以看出，$R_{n}$的统计特征近似于一个$M(0,sigma^{2})$的正态分布。

$sigma_{hat{ heta}}=sqrt{D(hat{ heta})}$称为估计量$hat{ heta}$的标准误差。

假设：bootstrap样本的参数估计分别为$hat{ heta}_{1},hat{ heta}_{2},...,hat{ heta}_{M}$，那么，

$hat{sigma}_{hat{ heta}}=sqrt{frac{1}{M-1}sum_{i=1}^{M}(hat{ heta}_{i}-ar{ heta})^{2}}$

上式即为$sigma_{hat{ heta}}$的bootstrap估计，其中$ar{ heta}$为bootstrap样本均值。

参数$ heta$的bootstrap偏差可以写为，$ar{ heta}- heta_{n}$，其中$ heta_{n}$为原样本的参数$ heta$的估计值。

参数$ heta$估计的bootstrap均方误差为，$E(hat{ heta}- heta)^{2}=sigma_{hat{ heta}}^{2}+(ar{ heta}- heta_{n})^{2}$。