bootstrap

bootstrap的数学定义

设随机样本$X=[x_{1},x_{2},...,x_{n}]$是独立同分布样本,$x_{i}sim F(x),i=1,2,...,n$。$R(X,F)$为某个预先选定的随机变量,是X和F的函数。现要求根据观测样本估计$R(X,F)$的分布特征。例如,设$ heta = heta(F)$为总体分布$F$的某个参数,$F_{n}$是观测样本$X$的经验分布函数,$hat{ heta}=hat{ heta}(F_{n})$是$ heta$的估计,记估计误差为$R(X,F)=hat{ heta}(F_{n})- heta(F)$,现由观测样本$X=[x_{1},x_{2},...,x_{n}]$估计$R(X,F)$的分布特征,bootstrap方法实质就是一个再抽样过程,计算$R(X,F)$分布特征的基本步骤归纳如下:

1.基于样本进行自助抽样,构造出M个自助抽样子样本集,即bootstrap样本。

2.基于M个bootstrap样本,得到所求参数$ heta$的M个取值,进而求出参数$ heta$的分布及其统计量。

由抽样过程可以看出,$R_{n}$的统计特征近似于一个$M(0,sigma^{2})$的正态分布。

$sigma_{hat{ heta}}=sqrt{D(hat{ heta})}$称为估计量$hat{ heta}$的标准误差。

假设:bootstrap样本的参数估计分别为$hat{ heta}_{1},hat{ heta}_{2},...,hat{ heta}_{M}$,那么,

$hat{sigma}_{hat{ heta}}=sqrt{frac{1}{M-1}sum_{i=1}^{M}(hat{ heta}_{i}-ar{ heta})^{2}}$

上式即为$sigma_{hat{ heta}}$的bootstrap估计,其中$ar{ heta}$为bootstrap样本均值。

参数$ heta$的bootstrap偏差可以写为,$ar{ heta}- heta_{n}$,其中$ heta_{n}$为原样本的参数$ heta$的估计值。

参数$ heta$估计的bootstrap均方误差为,$E(hat{ heta}- heta)^{2}=sigma_{hat{ heta}}^{2}+(ar{ heta}- heta_{n})^{2}$。

原文地址:https://www.cnblogs.com/ningjing213/p/11876241.html