《概率统计》6.推断未知：统计推断的基本框架

进入统计学

从现在开始，我们进入到统计推断的主题。统计学使用概率论的基本方法，研究怎样通过试验收集带有随机误差的样本数据，并在设定的统计模型之下，进行后续的研究工作，主要分为两大类：

第一类是对这些已有的样本数据进行分析，计算它们的一些统计特征，比如样本均值、方差等等，即"描述统计"的范畴。
第二类是更重要的，是通过这些已有的样本数据，对整个未知的总体进行推断，估计出总体当中我们感兴趣的未知参数值，即"统计推断"的工作，这是我们重点关注的内容。

那我们为什么需要关注统计推断的方法呢？因为，当我们需要对一个未知的对象进行分析时，一般需要通过获取数据来分析这个对象，但在现实当中，我们只能获取一部分数据而无法获取总体的全部数据。而统计推断研究的就是通过部分的样本数据来推断总体统计特征的方法。

上面的描述当中，有很多的术语和概念，为了便于大家理解，我们来举一个统计推断的例子。

统计推断的例子

有一家企业生产电子元器件，这些元器件的寿命服从指数分布，那么我们如何估计这些元器件的平均寿命呢？如果我们知道这个指数分布的参数 λ 的值，则可以马上回答这个问题：即平均寿命等于1 / λ。但是现实往往是残忍的，我们在实际当中根本就不可能知道λ的值

于是，我们只好从工厂所有生成的元器件当中随机抽取出 n 个元器件，并测出其寿命分别为:X₁、X₂、X₃......X_n，注意此处有一个重要的前提，那就是我们需要保证这一大批元器件当中，每一个元器件都有等概率被抽取的机会。

这时候，当我们有了数据X₁、X₂、X₃......X_n之后，一个自然而然的想法就是：通过计算，我们用这些样本数据的平均值(ar X) = ({X_1+X_2+X_3+...+X_n} over {n})去作为所有元器件未知平均寿命1 / λ的一个估计值。当然，(ar X)可能大概率恰好不等于1 / λ。不过请不要担心，我们在实际的工程和研究当中，本来也不可能要求它们做到完全相等，只要具体满足一些性质和要求就可以了，那么具体应该满足什么要求，我们下面接着慢慢讲。

统计推断中的一些重要概念

统计推断的过程总结

上面描述的就是统计推断中的一个简单的参数估计问题，因为 λ 是元件寿命这个指数分布中的一个未知参数，而我们的目标是要估计由参数 λ 决定的一个量，即 1 / λ，也可以把估计的目标改为是要求估计参数 λ 本身。然后再用参数 λ 的估计值，回过头来计算我们想要知道的所有元器件的平均寿命，即：平均寿命 = 1 / λ。

下面，我们就结合例子来讲讲总体、样本的具体概念。

总体的概念

总体是指与所研究的问题有关的对象全体构成的集合。在上面的那个例子当中，工厂生产的所有电子元器件就是问题的总体，而其中每一个元器件就是一个个的个体，所有这些个体构成了问题的总体。

我们的电子元器件总体的寿命分布为指数分布，总体分布的概率模型不同，分析的方法也就不同，赋有一定概率分布的总体也称之为统计总体。因此，当总体分布为指数分布时，称之为指数分布总体，同样的，当总体分布为正态分布时，就称为是正态分布总体。

别以为这样就完了，其实总体的概念中还有许多概念值得深挖。

一方面是，虽然我们假设了电子元器件总体的寿命服从指数分布，但是其中的参数值 λ 并没有指定，那么这个未知的 λ 原则上是可以取 0−∞ 内的任何值的。因此更正确的说法是，总体分布是一个概率分布族的一员。像指数分布这种，只包括一个参数 λ 的，称作是单参数分布族，而像正态分布 N(μ,(σ^2)) 这种包含两个参数的分布，则是一个两参数分布族。

另一方面：在很多实际情况下，我们只能假定总体有一定的概率分布，但是无法明确其具体的数学形式，更不用说表示成我们熟悉的标准分布的形式了。当总体分布不能通过若干个未知参数表达出来的时候，这种情况称之为是非参数总体。对于非参数总体，同样存在统计推断的问题，例如去估计平均值、方差等重要的统计量，这是实际中更加常见的工作。

样本的概念

有了总体的概念，我们再来看看样本。样本就是按照一定的规定，从总体中抽取出来的一部分个体，所谓“按照一定的规定”，就是指总体中的每一个个体拥有同等的被抽取的机会。

样本({X_1、X_2、X_3......X_n})中的n称之为样本大小或者样本容量。我们可以把({X_1、X_2、X_3......X_n})称为一组样本，(X_i)是第i个样本

一般而言，如果总体当中包含了大量的甚至是无限多个的个体，抽掉1个或n个个体，对总体的分布几乎没有影响，因此样本(X_1,X_2,X_3,...X_n)是独立同分布的，它们的公共分布就是总体分布。这是应用上最为常见的情形，也是我们主要的研究目标。但是如果当总体所含的个体数目不太大时，情况就不同了。放回式抽样还是不放回抽样也要作为一个要素加入到统计模型的内容中来。

总结一下，在无限（或样本量极大）总体或者是在有限总体而抽样有放回的情况下，总体分布完全决定了样本的分布。

统计量

完全由样本所决定的量叫做统计量，这里意味着，统计量只依赖于样本，而不依赖于任何其他未知的量，尤其是不能依赖于总体分布中所包含的未知参数。还是来看个例子：

例如我们从正态总体N(μ, (σ^2))中抽出样本(X_1、X_2、X_3、...X_n)，那么样本的均值：就是(ar X) = ({X_1+X_2+X_3+...+X_n} over {n})一个统计量，因为它完全由样本({X_1、X_2、X_3......X_n})所决定。但如果式子中包含了μ或者σ、类似于({ar x} - μ)这种，就不是统计量了，因为μ是总体的未知参数，({ar x} - μ)并不完全由样本所决定

这里面的道理很简单，统计量可以看做是对样本的一种加工，它把样本中所含的信息集中起来。目的就是用来估计总体当中的未知参数，如果此时在里面反而还包含了未知参数，显然就失去了意义。

一般而言，我们会使用样本均值(ar X) = ({X_1+X_2+X_3+...+X_n} over {n})去作为总体均值的估计。

那么，如果想了解总体方差(σ^2)的情况，则统计量(ar X)就派不上用场了，而应该使用样本方差(S^2) = ({1} over {n-1}) (∑_{i=1}^{n}({X_i} - {ar X})^2)去作为总体方差(σ^2)的估计。不可能有人会好奇，为什么这里除的是n-1而不是n呢？因为涉及到估计的无偏性，目前记住除以的是n-1不是n就行了。

样本矩

推而广之，有一类重要的统计量叫做样本矩，分为样本原点矩和样本中心矩，对于样本：(X_1、X_2、X_3、...X_n)：

(a_k) = ({X_1^k + X_1^k + X_1^k + ... + X_n^k} over n)成为k阶样本原点矩，其中的一阶样本原点矩就是(a_k) = ({X_1 + X_1 + X_1 + ... + X_n} over n)是一个非常重要的样本原点矩，也就是样本均值。
而(m_k) = (∑_{i=1}^{n}({X_i} - {ar X})^k over {n})，则称之为k阶样本中心矩。