统计学中P值的理解

一、p值含义理解

P值的含义:原假设为真时,出现偏离原假设值的观测值以及比观测值更极端的值的概率,说白了P值是个概率值。

通俗理解:在假设原假设(H0)正确时,出现现状或比现状更差的情况的概率。

p值是Fisher先提出来的“显著性检验”理论体系中的概念,假设检验之所以可行,其理论背景是小概率理论,小概率事件在一次试验中几乎是不可能发生的,但是它一旦发生,我们就有理由拒绝原假设;反之,小概率时间没有发生,则认为原假设是合理的。通常步骤如下:

1. 有一个命题,称之为”零假设“(null hypothesis)H0;
2. 找到一个统计量Z,可以计算Z的统计分布;
3. 一次试验结果可以计算得到一个确切的Z值(Z0),在H0成立的情况下,出现比Z0更极端情况的概率值记作p值;
4. 如果p很小,则可以作为”零假设并不成立“的有力证据。
 
显著性水平是原假设为真时拒绝原假设的概率,也即上述所说的小概率的界限,常取值0.05,001.在显著性水平α下,P值规则为:P≤α,则拒绝H0;如果P>α,则不拒绝原假设。
我们通常把1-α称为置信水平,即对推断结果的把握度、可靠性。
 
二、举例解释
 假设检验一枚硬币是否是公正的,即出现正负面的概率是一样的。
假设:硬币是公平的
检验:扔1000次硬币来测试假设是否正确。
扔1000次硬币用二项分布来计算很麻烦,根据中心极限定理,我们知道,可以用正态分布来近似,比如,我扔了1000次,得到了530次正面,用正态分布来计算就比较简单。
对于正态分布,没办法计算某个点的概率(连续分布单点概率=0),只能取区间来获得概率,那这个时候取哪个区间合适呢?这就用到了上面定义的那句话了“出现现状或比现状更差的情况的概率”,如下:
如果显著水平为0.05,这个时候p-value=0.03<0.05,则拒绝原假设。
 
三、线性回归中的P值如何理解
       线性回归中的原假设:两个变量之间的线性关系是不显著的。
        当给定显著水平α时,如果检验结果的p值小于α,则拒绝原假设,说明模型反映的线性关系显著,即该变量很有用;反之不拒绝原假设,即该变量与目标变量确实没有多少线性关系,可以剔除该变量。
原文地址:https://www.cnblogs.com/gczr/p/15213833.html