方差和样本方差

概率论中方差用来度量随机变量和其数学期望之间的偏离程度,也称为总体方差

设总体为 $X$,$X_{1},X_{2},cdots,X_{n}$ 为来自总体的样本,样本容量为 $n$,总体的数学期望和方差分别为 $mu,sigma^{2}$,样本均值为 $ar{X} = frac{1}{n}sum_{i=1}^{n}X_{i}$

总体方差定义为

$$sigma^{2} = Eleft [ (X - mu)^{2} ight ]$$

其实总体方差就是随机变量 $Y = (X - mu)^{2}$ 的均值。将上面这个式子展开就得到我们常用的方差公式:

$$sigma^{2} = Eleft [ (X - mu)^{2} ight ] = E(X^{2}) - E^{2}(X)$$

上面的式子需要知道 $X$ 的具体分布是什么,这样才能得到 $X$ 的所有可能取值和其数学期望,但现实中一般不可能会知道。

所以采用样本方差来估计总体方差,样本方差的形式如下:

$$S^{2} = frac{1}{n - 1}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2}$$

为什么前面是 $frac{1}{n-1}$ 而不是 $frac{1}{n}$,假设样本方差的统计量为:

$$S^{2} = frac{1}{n}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2}$$

先来看看这个统计量的期望:

$$E(S^{2}) = Eleft [ frac{1}{n}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2} ight ] = Eleft [ frac{1}{n}sum_{i=1}^{n} igg( (X_{i} - mu) - (ar{X} - mu) igg)^{2} ight ] \
= Eleft [ frac{1}{n}sum_{i=1}^{n} igg( (X_{i} - mu)^{2} - 2(X_{i} - mu)(ar{X} - mu) + (ar{X} - mu)^{2} igg) ight ] \
= Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} - frac{2}{n}(ar{X} - mu)sum_{i=1}^{n}(X_{i} - mu) + (ar{X} - mu)^{2} igg) ight ]  \
= Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} - frac{2}{n}(ar{X} - mu)n(ar{X} - mu) + (ar{X} - mu)^{2} igg) ight ] \
= Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} - (ar{X} - mu)^{2} igg) ight ]$$

因为 $X_{i}$ 和 $X$ 独立同分布,所以有

$$Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} ight ] = Eleft [ frac{1}{n}sum_{i=1}^{n} ( X_{i}^{2} - 2X_{i}mu + mu^{2} ) ight ] \
= frac{1}{n}sum_{i=1}^{n} left [ E(X_{i}^{2}) - mu^{2} ight ] = sigma^{2}$$

$$E(ar{X}^{2}) = D(ar{X}) + E^{2}(ar{X}) = frac{1}{n}sigma^{2} + mu^{2}$$

$$Eleft [ (ar{X} - mu)^{2} ight ] = Eleft [ ar{X}^{2} - 2ar{X}mu + mu^{2} ight ] = frac{1}{n}sigma^{2}$$

所以有

$$E(S^{2}) = frac{n-1}{n}sigma^{2}$$

方差统计量的期望不等于总体的方差,会比真实值低了 $frac{1}{n}sigma^{2}$,所以需要进行修正,因此使用下面这个式子进行估计,得到的就是无偏估计:

$$S^{2} = frac{1}{n - 1}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2}$$

原文地址:https://www.cnblogs.com/yanghh/p/13806782.html