商务统计学（六）第九章第一部分假设检验的基本概念以及两种对均值的假设检验方法

《商务统计学》第七版

作者：戴维·莱文等，审校：胡大源

“先把书读厚，再把书读薄” --- 华罗庚

第九章假设检验基础：单样本检验

在第7章中你学会了如何判定一个样本的均值是否与其来源总体相一致？

而现在你需要处理：怎样利用样本均值来证实一个有关总体均值的判断？

面对这样的问题你需要使用假设检验的推断方法（Look，这就是我喜欢这本书的地方）

9.1 基本假设的检验方法

假设检验

假设检验需要你陈述一个没有歧义的论断，假设检验一般从关于某一总体参数的理论、主张或者断言开始。

零假设

零假设用于表示现状，零假设仍然是关于总体参数的假设。

[比如自动装盒过程中，若果运行正常，那么平均每盒产品的重都与标注重量相同。即，H_0:mu=标注值 ]

一个推断是：通过样本数据所观察到的结果，表明零假设为假，如果零假设为假，那么一定有其他假设为真（备择假设为真）
不能被拒绝的零假设并不能证明是真的。
（有意思的是）我们永远也不能证明零假设是真的，因为我们的判断仅仅基于样本信息，而不是整个总体信息。（也可以称为“我们无法证明备择假设的正确性”，所以你不能拒绝零假设）
零假设总是对总体参数的某一特定值而言的，而不是关于样本统计量（如样本均值）而言的

备择假设

[备择假设，H_1是与零假设H_0相对立的。在上述例子中可以表示为H_1:mu eq 标注值 ]

在许多研究中，备择假设都不是研究的重点，因为如果从样本中得到的证据足以证明零假设不太为真，那么就可以拒绝零假设，从而得到备择假设所代表的结论。（但如果零假设没有被拒绝，你无法证明某一步出现了问题，那么你可以继续相信未被证实的零假设）

（零假设包含等号而备择假设不包含等号）

检验统计量的临界值

在决策的过程中，如果依靠个人主观判断（比如手样本均值与总体均值）什么样是“很接近”，什么样式“相差很大”，就太随意了。

假设检验论提供了清晰的定义来衡量这些差别，使得量化了决策过程，从而计算出在零假设成立的情况下，得到某一样本值的概率

要做到这一点

首先要确定有关的样本统计量（即样本均值）的抽样分布
然后根据给定的样本值计算出特定的检验统计量

（由于检验统计量的抽样分布通常服从某些已知的统计分布，比如标准正态分布和t分布，我们可以利用这些分布来确定零假设是否为真）

拒绝域和非拒绝域

我们可以将检验统计量的抽样分布分为两个区域：拒绝域和非拒绝域

如果检验统计量的值落入非拒绝域，那我们就无法拒绝零假设。
同理，如果落入拒绝域，那就可以拒绝零假设。（在零假设为真的落入拒绝域的可能性非常小，在零假设不为真时，落入拒绝域的可能性会增大许多)
临界值的确定决定于拒绝域的大小，而拒绝域的大小又和根据样本信息来决定总体参数的风险直接相关

根据假设检验方法进行决策的风险

用假设检验进行决策时，存在得出错误结论的风险，分为两类

第一类错误：错误地拒绝了一个正确的零假设。发生第一类错误的概率用alpha来表示。代表“错误报警”。
第二类错误：没有拒绝一个错误的零假设。发生第二类错误的概率用beta来表示。代表“坐失良机”。（译者挺有意思）

根据传统

显著性水平

[alpha是人们可以接受的拒绝正确零假设的风险，（这种犯第一类错误的风险或者说概率）被称为统计检验的显著性水平 ]
由于在进行假设检验之前就要确定显著性水平，因此alpha可以认为加以控制，通常会选择0.01，0.05，0.10作为显著性水平

非一般情况的显著性水平取决于犯第一类错误的代价
- 置信系数
  [与显著性水平alpha互补的值(1-alpha)称为置信系数\ 是当零假设为真（不应被拒绝时）人们不拒绝它的概率 ]
beta风险

[犯第二类错误的（没有拒绝一个错误的零假设的）概率被称为eta风险（eta risk） ]
- 统计检验能力
  
  统计检验是，当零假设错误应该被拒绝时人们拒绝它的概率。（顾名思义，这是正确的拒绝，这样的概率可以表现该检验假设的能力）
控制和降低犯第二类错误的概率的途径之一就是扩大样本容量。给定显著性水平，扩大样本容量，将使beta值变小，从而增大统计检验能力。

但是我们拥有的资源是有限的。因此给定样本容量时，我们必须劝权衡两类可能的错误之间的“此消彼长”的关系

[alpha减小，eta增大；alpha增大，eta减小 ]
由于alpha --- 犯第一类错误的风险可以直接控制，所以一般通过alpha来权衡。至于应该取多大的alpha值最合理，这取决于犯这两类错误的代价：（以麦片装盒为例，每盒麦片的标称值为368g，零假设就为：平均每盒麦片的重量为368g）
- 如果犯第一类错误的代价很大，我们就可以选择alpha为0.01而不是0.05
  
  （比如犯了第一类错误，然后所需要调整流水线上装配值的代价很高，就要选择较小的alpha）
- 如果犯第二类错误的代价很大，我们就可以将alpha增大到0.05甚至是0.10
  
  （比如犯了第二类错误，但是根据质检标准，实际平均每盒麦片的重量要严格地限定在标称值附近，就要选择较大的alpha）

均值的Z检验（标准差已知）

[Z_{STAT}表示以标准差为单位度量的ar{X}与mu之间的差距\ Z_{STAT}=frac{ar{X}-mu} {frac{sigma} {sqrt{n}}}\ （公式与均值抽样分布的Z值的相等）\ 表示以标准差为单位度量的ar{X}与mu之间的差距\ Z_{STAT}的值在假设检验临界值法中被使用 ]

假设检验临界值法

在假设检验法中需要将检验统计量（Zstat）与划分拒绝域与非拒绝域的临界值进行比较。

这里的临界值可表示为由显著性水平决定的标准化的Z值。

例如，我们使用0.05的显著水平，由于零假设包含等号而备择假设不包含等号，我们使用双侧检验（暂时不知道包不包含等号与进行双侧检验有什么关系），因此0.05被平分给两个拒绝域，每部分0.025。对正态分布而言，两处临界值的值分别就为-1.96和1.96（因为累积区域大小分别是0.025和0.975，然后对照累计标准正态分布表得出）。因此，决策准则为

[若Z_{STAT}>+1.96或Z_{STAT}<-1.96，则拒绝H_0\ 否则，不能拒绝H_0 ]

临界值法进行假设检验的六个步骤

写出零假设和备择假设
确定显著水平alpha（根据问题中犯第一类错误和第二类错误的风险的相对重要性来确定），以及样本容量n
确定要使用的检验统计量，以及抽样分布
确定划分拒绝域和非拒绝域的临界值
收集整理样本数据，计算检验统计值
判定假设能否成立，做出决断（检验统计量落入拒绝域则拒绝假设，落入非拒绝域则不能拒绝假设）

假设检验的p值法

p值（p value）是在零假设为真的情况下，使得某一检验统计量等于或大于样本结果的概率。p值经常被称为“观察到的显著水平”。根据p值来确定拒绝域和非拒绝域是假设检验的另一种方法：

[如果p值大于或等于显著性水平alpha，则不能拒绝零假设，如果p值小于alpha，则拒绝假设 ]

例如，我们要检验装盒重量的均值是否等于368g。所得到的Z(stat)=+1.50（就是说总体均值与样本均值的差距为1.50）。使用p值进行双侧检验，我们可以得到一个Z(stat)检验统计量相应的概率 --- Z(stat) < -1.50的概率为0.0668，那么同理，它大于+1.50的概率就为0.0668。因此，这一双侧检验中的p_value=0.0668+0.0668=0.1336（也就是说，检验统计量正处在或比样本观测结果更偏离中心的概率是0.1336），由于0.1336>0.05，因此不能拒绝零假设。

Excel可以计算任何假设检验的p值

p值法进行假设检验的5个步骤

相比假设检验法，不用第四步，重点在于假设准则

置信区间估计与假设检验之间的关系

这两者是统计推断的两个重要组成部分，他们基于相同的基本概念，但它们的目的不同

置信区间：用于估计参数
假设检验：用于对特定的总体参数值进行决策，当判断一个参数是否小于、大于或者不等于某一特定值时，使用假设检验

当然，合适的置信区间也可以证明某个参数是否小于、大于或不等于某一特定值。因为，如果假设值落入置信区间，则不能拒绝假设，因为假设值在置信区间内，我们就不能认为假设值是异常的。

关于均值Z检验的“已知标准差”

同第八章已知标准差的算法一样，研究已知标准差的检验让驾驶假设检验的基本原理变得简单。有了已知的总体标准差，可以使用正态分布并且计算出p值。对于后面几章，理解假设检验的概念非常重要。

9.2 对均值的t检验（标准差未知）

（建议对比“8.2 对总体均值的置信区间的估计 t分布”进行阅读）

总体标准差未知，我们就使用样本标准差。如果假设总体服从正态分布，样本均值将服从自由度为n-1的t分布，这样就可以使用对均值的t检验。（当然，老生常谈，只要样本容量不是特别小，即使总体并非正态分布，但其实依然可以使用t检验）

[t_{STAT}=frac{ar{X}-mu}{frac{S}{sqrt{n}}}\ t_{STAT}检验统计量服从自由度为n-1的t分布\ ar{X}是样本均值、S是样本标准差、mu是总体均值，n为样本容量\ (决策准则与Z检验十分相似，详见案例) ]

乍一看不是对均值的t检验和对均值的Z检验公式一样嘛！于是我找到了如下资料（来源见拓展）

均值t检验和对均值Z检验的相同点

两者都能够进行均值差异性检验

均值t检验和对均值Z检验的不同点

Z检验要求样本用量足够大（前者很难达到），t检验可以用于n<30的样本，也可以胜任大样本，而且不用知道总体
Z检验要求总体标准差已知（很难达到该要求），t检验可以用样本均值和标准差代替总体均值和标准差
t检验适用范围更广（由于上述两个区别），SPSS里只有t检验，没有z检验模块

注意

样本容量大于30且样本容量越大时，样本标准差就会与总体标准差越小
《商务统计学第七版》指出，如果样本容量小于30，那么就不能轻易做出假设---认为样本的总体近似地服从于正态分布。此时，使用其他的非参数检验方法更为恰当。
当总体标准差未知且可以通过样本标准差S来估计时，就要使用t检验，但使用t检验，必须建设已有数据所代表的随机样本来自正态总体

假设检验举例

（书籍p279）商务目的是判断过去5年内平均每份销售单据的金额是否为120美元（样本容量为12，），也就是说，希望通过假设检验来证明销售单据金额的均值是否有所上升或下降

双侧检验临界值法（采用9.1六步法）

[H_{0}:mu=120quad H_{1}:mu eq120 ]
[n=12quad,alpha=0.05 ]
显著性水平采取一般值0.05
[假设销售单据金额总体近似服从正态分布，使用t分布，并采用t检验 ]
因为样本容量小所以采用t分布，又因为总体标准差未知所以采用t检验
[样本容量为12，因此t_{STAT}服从自由度为11的t分布\ 显著性水平为0.05且此处采用双侧检验，因此一侧的拒绝域面积为0.025\ 使用11和0.025查询t值表可得，临界值为pm2.2010 ]
[因此决策原则为：\ 若t_{STAT}<-t_{frac{alpha}{2}}=-2.2010 或者 t_{STAT}>t_{frac{alpha}{2}}=2.2010，则拒绝H_{0}\ 若在中间的区间内则不能拒绝H_{0} ]
随机抽取12个样本并计算样本均值与样本标准差

[假设样本中ar{X}=112.85，S=20.80\ 代入t检验公式（预期中的总体均值mu=120）得\ t_{STAT}=-1.1908 ]
[由于t_{STAT}统计检验量=-1.1908且落入临界值pm2.2010的范围内,因此不能拒绝H_{0}\ 所以结论为“没有足够证据证明销售单据金额的均值已经偏离以往的均值120美元” ]

双侧检验 p值检验法

同上
同上
同上
[t_{STAT}=-1.1908\ 由Excel计算得(双侧)punderline value=0.2588 ]
[因为双侧p值0.2588大于显著性水平0.05，因此，不能拒绝H_{0}\ 所以结论为“没有足够证据证明销售单据金额的均值已经偏离以往的均值120美元” ]

拓展阅读

统计学中Z检验和t检验的区别

如何理解Z检验和T检验？