超几何分布与应用【转载】

转自:https://baike.baidu.com/item/%E8%B6%85%E5%87%A0%E4%BD%95%E5%88%86%E5%B8%83/4782968?fr=aladdin 

 https://www.jianshu.com/p/13f46bebebd4

1.定义

//这个说法比较好理解,就是抽取残次品的概率。但是得提前知道有几件不合格品,这个可以通过生产线的残次率来估算的吧。

超几何分布是富集分析的常用方法,常用的GO富集分析都是用超几何分布计算的。下面将浅显的探讨一下超几何分布的原理。

//关于基因富集还需要学习,暂且放过。

在这里我们做一个简单的概念转换即可知道软件是如何做GO富集分析的:

  1. N为GO注释数据库中的总基因数;
  2. M为数据库中属于某个GO子类的基因数;
  3. n为我们得到的需要进行GO富集分析的基因的总数目;
  4. k为n中属于M的数目。

因此我们就可以计算基因集n是否在M类中富集的概率。

2.例子

在基因富集中的P值计算公式:

上面式子的意思是: 从总N个基因抽n个基因, 作为分母,分子是M个基因有i个落在通路里,有n-i个不落在通路里。 p-value是指你观察到m个基因落在通路里,比这还要更极端的概率之和,所以i是从m到M。 就是说看到更多的基因落在这个通路里的所有可能。

//也就是在基因富集中的应用就是通过超几何分布用来计算P值。

2020-2-19更新——————————

转自: https://www.zhihu.com/question/38191693/answer/75277085

原文地址:https://www.cnblogs.com/BlueBlueSea/p/10252205.html