统计学_二型错误和功效（Type II Errors and Test Power）

python机器学习-乳腺癌细胞挖掘（博主亲自录制视频）https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

二型错误和检验功效：
如果我们想问H1真正正确的概率？或问真实效应？
二型错误代表假阴性
B代表二型错误的概率（假阴性）
power效应代表真阴性的概率

power即功效，是备择假设正确时，结论为接受备择假设的概率，即1-第二类错误的概率。 size即sample size，就是样本量。样本量越大当然功效越大了。

a= the probability for Type I errors
B=the probability for Type II errors ()power of the test)
d, the effect size, i.e., the magnitude of the investigated effect relative to , the
standard deviation of the sample

If we want to answer the question “How much chance do we have to reject the
null hypothesis when the alternative is in fact true?,” or in other words, “What’s the
probability of detecting a real effect?,” we are faced with a different problem. To
answer these questions, we need an alternative hypothesis.
Type II errors are errors where the result is not significant, despite the fact that
the null hypothesis is false. In quality control, a Type II error is called a consumer
risk, because the consumer obtains an item that does not meet the regulatory
requirements.
In Fig. 7.7, a Type II error would be a “healthy” diagnosis (“negative” test result),
even though the subject has cancer.
The probability for this type of error is commonly indicated with B. The “power”
of a statistical test is defined as .（1-B）/*100, and is the chance of correctly accepting
the alternative hypothesis. Figure 7.5 shows the meaning of the power of a statistical
test. Note that for finding the power of a test, you need an alternative hypothesis

样本量不足，功效power太低50%，说明实验检测阳性可靠性不高

增加样本量后，效应power马上提高，接近80%

阳性预测值Positive Predictive Value

阳性预测值是指筛检试验检出的全部阳性例数中，真正“有病”的例数（真阳性）所占的比例，反映筛检试验结果阳性者患目标疾病的可能性。

P<0.05就万事大吉了吗？别天真了！统计功效你造吗？

http://www.bioon.com/3g/id/6693500/

导语

写实验方案的时候，有没有一个问题让你头大——需要多少样本量才好？随便捏一个看起来不错的数，还是要怎样去计算？如果这个问题没有困扰到你，要么说明你已炉火纯青毫不费力，要么当心你的实验死得不明不白——就算最后做出来P<0.05，也有可能白做了（不要问我怎么知道的=_=）。

虽然往事不堪回首，但后来听说不仅是青涩的研究僧，有些在实验室里摸爬滚打了好几年的博士后都未必能处理好，我好像又舒心一点了。

做统计，无非就是要看看我们的实验得出的结果是否是一个真正的新发现，选取的样本能在多大程度上代表整体。然而，要从数据中得到一个有说服力的结论，并不仅是追求p<0.05就可以了，我们还要考虑统计功效（Statistical Power），其中样本量就是很重要的一个因素。低功效的实验更容易得出虚假的结果，也就是说，你那个P<0.05没啥卵用。

统计功效是个什么鬼？

统计功效，简单说就是真理能被发现的可能性。就像胰岛素能降低血糖这事是真实存在的，但人类能发现它的概率是多少？如果统计功效是0.8，就是说人类有80%的概率能发现它。

它的数学定义可用一个公式来概括，统计功效=1-β，此处的β是指第二类错误概率，即假阴性错误概率。还用那个胰岛素的例子，就是说我实验做得不好，统计功效太低，最后我以为胰岛素和降血糖没有关联。这个结果显然是错的，我发生这种错误的概率就是β。从公式可以看出，实验的统计功效越高，β就越低，就意味着我们就越能避免这种错误。所以要在设计实验设计的时候就注意控制统计功效。

影响统计功效的因素有很多，主要的有3个：效应量、样本量和α水平。

1.效应量（d）

两组间差异的效应量由以下公式定义：

μ1：第一组的平均值

μ2：第二组的平均值

σ：总体标准差

如图中案例A和案例B的情况，显然各组平均值的差值(Δμ)越高，或标准差越低，都越容易检测到组间差异（有统计学意义的结果）。效应量越大，统计功效就越大。

2. 样本量

显然，从整体中提取的样本越多，样本就越能代表整体，计算的效应量也越精确。但效应量是样本固有特性，样本量则是可以由自己掌握的，可以通过扩大样本量来提高实验的统计功效。

3. α水平

α水平也称显着性水平，即第二类错误概率，约定俗成地把它控制在0.05。如果把显着性水平降至0.01，实验能检测出差异的概率就更低了，也就是说，要是当p=0.03，我也只好说这两组没有统计学差异。可见，p<0.01比p<0.05更难达到。

统计学差异有多靠谱？

统计功效也深深地影响着统计学差异的可靠性。统计功效越高的实验意味着，它观察到的统计学差异（P<0.05）能反映真实情况的可能性越大。这可以用阳性预测值（positive predictive value，PPV）来说明：

1 – β：统计功效，β为第二类错误概率。

α：第一类错误概率，通常设为0.05。

R：真阳性和假阳性的比例的比值。

比如说，某种试剂用来定性检测某蛋白，真相是，在检测结果为阳性的样本中，有20%的真阳性和80%的假阳性，那么R就是0.20/0.80=0.25。你和小明分别用它做了实验。你俩都得到了这个令人欣喜的结果，然而你的统计功效是0.8，而小明的统计功效是0.2。按照α=0.05来看，你的实验的PPV就是：

也就是说，你的实验结果有80%的可能接近真相。

而小明的实验的PPV：

虽然他也做出了P<0.05的结果，但不幸这个实验只有50%的概率接近真相，我仍然可以说小明的实验质量不高，我不太信任他的结果。

所以说，当统计功效比较低时，p值就显得虚弱无力，这个实验就可能没什么意义。

那么，怎样才能提高我们实验的统计功效呢？上面说了，在3大主要影响因素中，只有样本量是我们可以控制的。虽说样本量越大，统计功效越高，但是不要忘了一个很现实的限制因素：钱！！！

我想做900例，基金委就会想，900例要花多少钱，我凭什么给你？有做这么多的必要吗？这时候你就用样本量计算公式糊他一脸。

统计功效分析：有免费工具~

公式？你是不是已经感觉到凛烈的寒风扑面而来……

放心好了，现在有很多样本量计算工具都是免费哒~不过我觉得最好用的还是这个在线工具：www.powerandsamplesize.com/Calculators/，它不仅能给你轻松算出需要的样本量，还能给你公式，直接贴到标书上！它还提供R语言代码，有兴趣也可以参悟一下。

打开网页如下：

左边那一列导航里，除第一栏是网站和用法的简介外，下面有30种不同实验类型的样本量计算器，分成几大类：单样本均数、两样本均数比较、K个样本均数比较、单个率、两样本率比较、配对率比较、K个样本率比较、时间-事件数据比较，OR值比较，SCSS的相对发病率、其他。

比如我要比较两种药物A和B对血清中P蛋白浓度的影响，在小样本的预实验中（或查文献得知，总之我们需要知道这个参数），A药物治疗后P蛋白下降了32.3ug/L，B药物组下降了38.6ug/L，总体标准差为7.2ug/L，现在我想扩大实验，需要多大样本呢？

在导航栏选择“Compare 2 Means： 2-Sample， 2-Sided Equality”，在左上角的Calculate下拉框里选择Sample Size：

然后看Power那一栏，我希望自己的实验有80%的统计功效，所以填0.8，第一类错误概率，约定俗成填5%，下边是按预实验结果或文献信息分别填上各组均值、总体标准差，Sampling Ratio填1，即两组样本量相等。最后点Calculate，就可以在左上的绿色框中看到，B组需要21人，两组一共就是42人，再考虑下80%的依从率，凑个整大概就入组60例吧~呃，想要的900例没有了……突然省了好多事。

右边那个曲线，纵坐标是样本量，横坐标是可以选择的，连坐标范围都可以调整。本图显示的是A组平均值，可以贴心地告诉你，均值浮动的范围内样本量会怎样变化。更换横坐标还可以看到样本量随B组平均值、总体标准差、取样比例的变化。三条曲线，分别是统计功效为70%、80%、90%时的样本量变化，提供多种参考。

继续拉到页面下方：公式！！！

这个公式只要贴到标书上就好了~每种实验的计算方法都是不一样的，要是都背下来多痛苦啊。

再往下就是R语言代码，有兴趣就看看呗。

如果你的实验要检测多个指标怎么办？那就每个指标都算一遍，取最大值，显然要求最大的一个指标都满足了，其他肯定不在话下。

这个网站还有另一个用处，就是当我们读到一篇文献，不知道它的结果有多靠谱，那么就在左上刚才我们选择Sample Size的地方，换成Power，然后在下边各栏填上实验的各个参数，最后计算统计功效，也就可以作为是否相信这个研究结果的参考。

所以，并不是P<0.05就可以了，科研的水很深啊骚年。（生物谷Bioon.com）

参考资料：

1．How Many Data Points Do I Need For My Experiment？

统计学_二型错误和功效（Type II Errors and Test Power）

python机器学习-乳腺癌细胞挖掘（博主亲自录制视频）https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

P<0.05就万事大吉了吗？别天真了！统计功效你造吗？

https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149（ 欢迎关注博主主页，学习python视频资源，还有大量免费python经典文章）

https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149（欢迎关注博主主页，学习python视频资源，还有大量免费python经典文章）