统计学中P值的理解

一、p值含义理解

P值的含义：原假设为真时，出现偏离原假设值的观测值以及比观测值更极端的值的概率,说白了P值是个概率值。

通俗理解：在假设原假设（H0）正确时，出现现状或比现状更差的情况的概率。

p值是Fisher先提出来的“显著性检验”理论体系中的概念，假设检验之所以可行，其理论背景是小概率理论，小概率事件在一次试验中几乎是不可能发生的，但是它一旦发生，我们就有理由拒绝原假设；反之，小概率时间没有发生，则认为原假设是合理的。通常步骤如下：

1. 有一个命题，称之为”零假设“（null hypothesis）H0；
2. 找到一个统计量Z，可以计算Z的统计分布；
3. 一次试验结果可以计算得到一个确切的Z值（Z0），在H0成立的情况下，出现比Z0更极端情况的概率值记作p值；
4. 如果p很小，则可以作为”零假设并不成立“的有力证据。

显著性水平是原假设为真时拒绝原假设的概率，也即上述所说的小概率的界限，常取值0.05，001.在显著性水平α下，P值规则为：P≤α，则拒绝H0;如果P>α，则不拒绝原假设。

我们通常把1-α称为置信水平，即对推断结果的把握度、可靠性。

二、举例解释

假设检验一枚硬币是否是公正的，即出现正负面的概率是一样的。

假设：硬币是公平的

检验：扔1000次硬币来测试假设是否正确。

扔1000次硬币用二项分布来计算很麻烦，根据中心极限定理，我们知道，可以用正态分布来近似，比如，我扔了1000次，得到了530次正面，用正态分布来计算就比较简单。

对于正态分布，没办法计算某个点的概率(连续分布单点概率=0)，只能取区间来获得概率，那这个时候取哪个区间合适呢？这就用到了上面定义的那句话了“出现现状或比现状更差的情况的概率”，如下:

如果显著水平为0.05，这个时候p-value=0.03<0.05,则拒绝原假设。

三、线性回归中的P值如何理解

线性回归中的原假设：两个变量之间的线性关系是不显著的。

当给定显著水平α时，如果检验结果的p值小于α，则拒绝原假设，说明模型反映的线性关系显著，即该变量很有用；反之不拒绝原假设，即该变量与目标变量确实没有多少线性关系，可以剔除该变量。