总体统计量的估计方法

1 点估计量法

可以用点估计量来估计总体的均值、方差或一定比例的精确值。但是无法可定估计完全正确，只是对总体做出假设。

1.1 通过样本估算总体均值

符号定义：

$mu$：总体均值。
$hat{mu}$：总体均值的点估计量，在总体均值未知时，其可作为总体均值的估计值。
$ar{x}$：样本均值，和总体均值的计算方法一样。

如果想要十分近似的估计总体均值，可以用下列算式估算总体均值：$$ar{x}=frac{sum{x}}{n}$$

即用样本均值作为总体均值的点估计量：$$hat{mu}=ar{x}$$

1.2 通过样本估算总体方差

符号定义：

$sigma^{2}$：总体方差。
$hat{sigma}^{2}$：总体方差的点估计量，在总体方差未知时，其可作为总体方差的估计值。
$s^{2}$：总体方差点估计量表示符号

一个数据集的方差度量的是数值与均值的偏离程度。当选择一个样本后，相比总体，样本总的数值数量变少了，因此与总体中数值的偏离程度相比，样本中的数值，可能更紧密的聚集在数值周围。极端数值在样本中出现的可能性下降，这是因为总的来说这样的数值变少了了。所以用样本方差来估计总体方差会出现这样的问题：估计结果会稍微偏低，样本方差可能会略小于总体方差，差别程度取决于样本的大小。样本较小时，样本方差与总体方差的差别有可能更大。

如果样本大小为$n$，可以用下列算式估算总体方差：$$s^{2}=frac{sum{(x-ar{x})^{2}}}{n-1}$$

没有用样本方差而是用上述算式作为总体方差的点估计量：$$hat{sigma}^{2}=s^{2}$$

如果需要计算总体方差的真实值，需要使用如下算式：$$sigma^{2}=frac{sum{(x-mu})^{2}}{n}$$

1.3 通过样本估算总体比例

符号定义：

$p$：总体成功比例。
$hat{p}$：总体成功比例的点估计量。
$P_{s}$：样本成功比例。

对于符合二项分布的总体，用$X$表示总体成功事件的数量，参数为$n$和$p$。$n$为总体的人数，$p$为成功事件的比例。

就像总体均值最接近的估计值是样本均值一样，总体成功比例最接近的估计值是样本成功比例。样本比例算式如下：$$P_{s}=frac{成功数目}{样本数目}$$

即用样本成功比例作为总体成功比例的点估计量：$$hat{p}=P_{s}$$

1.4 比例的抽样分布（通过总体计算样本）

符号定义：

$p$：总体成功比例。
$P_{s}$：样本成功比例。

一大盒包装糖可供数人分享，每盒有100粒糖球，糖球总体中有25%是红色的。现在要求一大盒特定糖球中有40颗或40颗以上红色糖球的概率。总体参数已知，需要为某一盒糖球计算概率。也就是说计算的不是总体概率，而是样本比例的概率。为此，需要得出样本比例的概率分布：

查看与特定样本大小相同的所有样本：如果样本大小为n，则需要考虑所有大小为n的可能样本。本例中，样本单位为盒，样本大小为100，即n为100。
观察所有样本比例形成的分布，然后求出比例的期望和方差：每一个样本都有自己的情况，因此每个包装盒里红色糖球的比例都有可能发生变化。
得出比例分布后，利用分布求出概率：得知一个样本中”成功比例“的分布后，就能够利用这个分布求出一个随机样本的比例概率，这里的随机样本是一大盒糖球。

此例总，$p$总体成功比例代表总体中红色糖球的比例，即$p=0.25$。

每一盒糖球都是从总体中抽取的一个样本。每盒有100个糖球，因此样本大小$n$为100。如果用随机变量$X$表示样本中红球的数量，则$X$服从二项分布，表示为$Xsim B(n,p)$，其中$n=100$，$p=0.25$。

样本中红色糖球的比例取决于$X$，样本中红色糖球的数目，即比例本身是一个随机变量，可将其记为$P_{s}$，且$P_{s}=frac{X}{n}$。

可以取出大小为$n$的可能样本为数众多，每一个可能样本包含$n$颗糖球，每个可能样本中红色糖球都服从同一分布，即$Xsim B(n,p)$，且样本中红色糖球的比例为$P_{s}=frac{X}{n}$。

利用所有可能的样本，能得出所有样本比例的分布，该分布称作比例的抽样分布，或者称作$P_{s}$的分布。

利用比例的抽样分布，能够求出某一个随机选择的、大小为$n$的样本的"成功比例"的概率（本例中即为，利用比例的抽样分布，能够求出某一大盒糖球中红色糖球比例至少为40%的概率）。

在此之前，还需要知道$P_{s}$分布的期望和方差。

$P_{s}$分布的期望：$$E(P_{s})=Eleft ( frac{X}{n} ight )=frac{E(X)}{n}$$

上式中$X$为样本中红色糖球的数量，其服从二项分布$Xsim B(n,p)$，所以上式的结果为：$$E(P_{s})=Eleft ( frac{X}{n} ight )=frac{E(X)}{n}=frac{np}{n}=p$$

可以期望样本的成功比例和总体的成功比例一样，上述结果也证明确实如此。

$P_{s}$分布的方差：$$Var(P_{s})=Var(frac{X}{n})=frac{Var(X)}{n^{2}}$$

上式中$X$为样本中红色糖球的数量，其服从二项分布$Xsim B(n,p)$，所以上式的结果为：$$Var(P_{s})=Var(frac{X}{n})=frac{Var(X)}{n^{2}}=frac{npq}{n^{2}}=frac{pq}{n}$$

取方差的平方根，可得$P_{s}$的标准差，它指出样本比例与$p$（样本比例均值）的可能差距。有时称作比例标准误差，因为它能指出样本比例的可能误差。$$比例标准误差=sqrt{frac{pq}{n}}$$

在求得$P_{s}$的期望和方差后，发现当$n$足够大（大于30）时，$P_{s}$的分布越接近正太分布，可表示为：$$P_{s}sim N(p,frac{pq}{n})$$

由于当$n>30$时，$P_{s}$接近正太分布，可以用正太分布来解答“某一大盒糖球中红色糖球比例至少为40%的概率”。最后需要对抽样分布进行连续性修正。

1.5 均值的抽样分布（通过总体计算样本）

符号定义：

$mu$：总体均值。
$sigma^{2}$：总体方差。
$X$：一个包装袋中糖球的数量。
$ar{X}$：$n$袋糖球的容量均值。

经过统计，每一袋小包装袋中糖球数目的均值为10，方差为1。现遭到顾客投诉：买了30袋糖球，结果发现每袋糖球中糖球的平均数目只有8.5。那么，这种事情发生的概率为多大。已知总体的均值和方差，然后抽取几袋糖球作为样本，需要计算样本均值的概率。为此，需要得出样本均值的概率分布：

查看与所研究样本大小相同的所有可能样本：如果样本大小为$n$则需要考虑所有大小为为$n$的样本。此例中小包装糖球有30袋，因此样本大小$n=30$。
查看所有样本的分布，求出样本均值的期望和方差：每一个样本都有各自的特点，每个包装袋中的糖球数目都有变化。
得知样本均值的概率分布后，利用该分布求出概率：只要知道所有可能样本的样本均值的概率分布，就能利用该分布求得一个随机样本的样本均值的概率。此例中，随机样本为小袋包装糖球。

随机选出的每一袋糖球都是$X$的独立观察结果。因此，每一袋糖球都服从同一分布，即如果用$X_{i}$代表随机抽取一袋糖球中糖球的数量，则每个$X_{i}$的期望都是$mu$，方差都是$sigma^{2}$。

现在取$n$包糖球作为样本，用$X_{1}$到$X_{n}$标记每袋糖球的数量，每个$X_{i}$都是$X$的独立观察结果，且服从上述分布。

用$ar{X}$表示$n$袋糖球的容量均值，$ar{X}$的公式：$$ar{X}=frac{X_{1}+X_{2}+cdot cdot cdot +X_{n}}{n}$$

可以取出大小为$n$的所有可能样本。每一个样本都包含$n$袋糖球，即每一个样本都包含$X$的$n$个独立观察结果。每个随机选择的包装中的糖球数量都服从相同的正太分布。可以用同样的方法计算每个样本的糖球数量均值。

从所有可能的样本得出的样本均值形成一个分布，称作均值的抽样分布，或称作$ar{X}$的分布。

均值的抽样分布提供了一种计算样本均值概率的方法（本例中，即为在一个30袋糖球的样本中，求糖球数目均值小于或等于8.5的概率）。

在次之前，需要知道$ar{X}$分布的期望和方差。

$ar{X}$分布的期望：$$E(ar{X})=E(frac{X_{1}+X_{2}+cdot cdot cdot +X_{n}}{n})=Eleft ( frac{X_{1}}{n} ight )+Eleft ( frac{X_{2}}{n} ight )+cdot cdot cdot +Eleft ( frac{X_{n}}{n} ight )=frac{E(X_{1})+E(X_{2})cdot cdot cdot +E(X_{n})}{n}$$

上式中$X_{i}$服从同一分布，且期望为$mu$，方差为$sigma^{2}$。所以上式结果为：$$E(ar{X})=frac{mu+mu+cdot cdot cdot +mu}{n}=frac{nmu}{n}=mu$$

$ar{X}$分布的方差：$$Var(ar{X})=Var(frac{X_{1}+X_{2}+cdot cdot cdot +X_{n}}{n})=Varleft ( frac{X_{1}}{n} ight )+Varleft ( frac{X_{2}}{n} ight )+cdot cdot cdot +Varleft ( frac{X_{n}}{n} ight )=frac{Var(X_{1})+Var(X_{2})+cdot cdot cdot +Var(X_{n})}{n^{2}}$$

上式中$X_{i}$服从同一分布，且期望为$mu$，方差为$sigma^{2}$。所以上式结果为：$$Var(ar{X})=frac{sigma^{2}+sigma^{2}+cdot cdot cdot +sigma^{2}}{n^{2}}=frac{nsigma^{2}}{n^{2}}=frac{sigma^{2}}{n}$$

取方差的平方根，可得$ar{X}$的标准差，其指出样本均值与$mu$可能偏离的距离，因此也称作均值标准误差。$$=sqrt{frac{sigma^{2}}{n}}=frac{sigma}{sqrt{n}}$$

$n$越大，均值标准误差越小。也就是说，样本中的个体越多，作为总体均值估计量的样本均值越可靠。

在求得$ar{X}$的期望和方差后，还需要知道$ar{X}$是如何分布的：

当$X$符合正太分布时，即若$Xsim N(mu,sigma^{2})$，那么$ar{X}sim N(mu,frac{sigma^{2}}{n})$。
当$X$不符合正太分布时，若$n$足够大（大于30）时，那么$ar{X}sim N(mu,frac{sigma^{2}}{n})$。

上述第二条结论的依据是中心极限定理：如果从一个非正太总体$X$中取出一个样本，若样本足够大（大于30），则样本均值$ar{X}$的分布近似正太分布。

最后此例中求$P(ar{X}<8.5)$的概率，使用上述$ar{X}$的概率分布即可。

2 置信区间的构建

点估计量可以估计总体的均值、方差或一定比例的精确值。但无法保证估计完全正确。因为仅依靠一个样本对总体做出估计，若样本出现问题，这个估计就会不准确。而置信区间是一种考虑了不确定性的总体统计量的估计方法，用一个区间而不是一个精确值来估计总体统计量。

2.1 认识置信区间

曼帝糖果公司用一个包含100粒糖球的样本得出口味持续时间均值的点估计量为62.7分钟，同时总体方差的点估计量为25分钟。首席执行官在电视节目的黄金时段宣布：糖球口味的平均持续时间为62.7分钟。这是根据手头证据可能得出的最可靠的口味持续时间估计值。可要略有差池，该怎么办？

以上是由精度引起的问题，点估计量很可能接近总体均值，问题是多接近才是够接近？与其用一个精确值作为总体均值的估计值，不如使用另一种方法。可以指定某一区间而不是一个十分精确的时间，作为糖球口味持续时间的估计。例如，可以说糖球口味的持续时间为55至65分钟，这仍会让听着觉得糖球口味的持续时间接近1小时，却保留更大的误差空间。那么，如果为总体均值指定一个区间，而不是一个精确的数值，我们期望糖球口味持续时间的均值介于这个区间内。让均值的点估计量处于这个区间（$(a,b)$）的中央，并将这个区间的上下限设定为均值点估计量加上或减去某个误差。

选择区间上下限是为了让总体均值介于$a$和$b$之间这一结果具有特定概率。例如，希望通过选择$a$和$b$，使得该区间包含总体均值的概率为95%。也就是说选择的$a$和$b$使得：$$P(a<mu<b)=0.95$$

用$(a,b)$表示这个区间，由于$a$和$b$的数值取决于自己对该区间包含总体均值这一结果具有的可信程度（置信度或置信水平），因此，$(a,b)$被称为置信区间。

2.2 求解置信区间

选择总体统计量：用于构建置信区间的总体统计量。
求出其抽样分布：比例抽样分布或均值抽样分布等。
决定置信水平：置信区间包含该统计量的概率。
求出置信上下限：为了求出上下限，需要知道抽样分布和置信水平。

求出糖果口味持续时间的置信区间。

2.2.1 选择总体统计量

在此例中需要为糖球口味持续时间构建一个置信区间，也就是为总体均值$mu$构建一个置信区间。

2.2.2 求出所选统计量的抽样分布

为了求出总体均值的抽样分布，需要知道均值的抽样分布（$ar{X}$分布）的期望和方差。根据点估计量法可知：$$E(ar{X})=mu$$ $$Var(ar{X})=frac{sigma^{2}}{n}$$

为了利用上述结果求出$mu$的置信区间，带入总体方差数值$sigma^{2}$和样本大小$n$。但是，现在只知道样本的均值为100，样本方差为25，并不知道总体的方差。所以用样本的方差进行估算。于是均值的抽样分布的期望和方差为：$$E(ar{X})=mu$$ $$Var(ar{X})=frac{sigma^{2}}{n}=frac{hat{sigma}^{2}}{n}=frac{s^{2}}{n}$$

糖果公司用包含100颗糖球的样本计算估计值，得到$s^{2}=25$，于是：$$Var(ar{X})=frac{s^{2}}{n}=frac{25}{100}=0.25$$

为了求出$mu$的置信区间，还需要知道$ar{X}$的分布。

假定$Xsim N(mu,sigma^{2})$，且样本数量包含很大，那么$$ar{X}sim N(mu,frac{sigma^{2}}{n})$$

或$$ar{X}sim N(mu,0.25)$$

2.2.3 决定置信水平

置信水平表明对于置信区间包含总体统计量这一结果由多大把握。例如，希望总体均值的置信水平为95%，表示总体均值处于置信区间的概率为95%。常用的置信水平为95%。

Tips:置信水平越高，置信区间越宽，置信区间包含总体统计量的概率越大。

2.2.4 求出置信上下限

最后一步求出$a$和$b$，即置信上下限。其值确切取决于需要使用的抽样分布以及需要的置信水平。

此例，让糖球口味持续时间具有95%的置信水平。即$mu$位于区间$(a,b)$的概率为95%。则可利用$ar{X}sim N(mu,0.25)$分布求出$a$和$b$，例如$P(ar{X}<a)=0.025$和$P(ar{X}>b)=0.025$。

对$ar{X}$进行标准化：$$Z=frac{ar{X}-mu}{sqrt{0.25}}$$

其中：$$Zsim N(0,1)$$

标准化后，转为求$P(z_{a}<Z<z_{b})=0.95$，查询标准正太分布表得知，$z_{a}=-1.96$和$z_{b}=1.96$，即：$$Pleft ( -1.96<frac{ar{X}-mu}{0.5}<1.96 ight )=0.95$$

用$mu$改写不等式，即得到其置信区间：$$P(ar{X}-0.98<mu<ar{X}+0.98)=0.95$$

$ar{X}$指样本均值的分布，于是采用糖果公司样本的$ar{x}$值（62.7），计算出置信区间为$(61.72,63.68)$。

2.3 置信区间的简便算法

只需要查看要求的总体统计量、总体分布以及各种条件，然后带入总体统计量或其估计量，就行了。数值$c$取决于置信水平。

总体统计量$mu$；总体呈正太分布；$sigma^{2}$已知、$n$可大可小、$ar{X}$为样本均值；则置信区间为：$left ( ar{X}-frac{csigma}{sqrt{n}}, ar{X}+frac{csigma}{sqrt{n}} ight )$
总体统计量$mu$；总体呈非正太分布；$sigma^{2}$已知、$n$很大（至少30）、$ar{X}$为样本均值；则置信区间为：$left ( ar{X}-frac{csigma}{sqrt{n}}, ar{X}+frac{csigma}{sqrt{n}} ight )$
总体统计量$mu$；总体呈正太或非正态；；$sigma^{2}$未知、$n$很大（至少30）、$ar{X}$为样本均值、$s^{2}$为样本方差；则置信区间为：$left ( ar{X}-frac{cs}{sqrt{n}}, ar{X}+frac{cs}{sqrt{n}} ight )$
总体统计量为$p$；总体呈二项分布；$n$很大、$p_{s}$为样本比例、$q_{s}=1-p_{s}$；则置信区间为：$left ( p_{s}-csqrt{frac{p_{s}q_{s}}{n}},p_{s}+csqrt{frac{p_{s}q_{s}}{n}} ight )$
总体统计量为$mu$；总体呈正太或非正太；$sigma^{2}$未知、$n$很小（小于30）、$ar{X}$为样本均值、$s^{2}$为样本方差；则置信区间为：$left ( ar{X}-frac{t(v)s}{sqrt{n}},ar{X}+frac{t(v)s}{sqrt{n}} ight )$

Tips:$t(v)$是自由度为$v=n-1$的$t$分布。

$c$值的确定方法：

置信水平90%，则$c=1.64$
置信水平95%，则$c=1.96$
置信水平99%，则$c=2.58$

一般情况下，置信区间的计算式为：$$统计量pm(误差范围)$$

误差范围等于$c$与检验统计量标注查的乘积：$$误差范围=c imes(统计量的标准差)$$