生信-RPKM与FPKM学习[转载]

转自:https://baike.baidu.com/item/RPKM/1197657

均反应基因的表达水平

1.RPKM的计算公式

分母是总共比对到这个基因的reads的数目(条 为单位),分母是:比对上的reads的总数(百万条为单位);外显子的长度也就是基因的长度(KB为单位)。

2.举个计算的例子

 

3.为什么需要这样计算呢?

Reads Per Kilobase of exon model per Million mapped reads

具体含义是:每百万reads中来自于某基因每千碱基长度的reads数。

若是单纯以map到的read数来计算基因的表达量,在统计上是不合理的。

因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表现量。

4.FPKM计算公式

含义: FPKM代表每千个碱基的转录每百万映射读取的碎片。

两者就是分子不同,RPKM分子是reads,FPKM分子是fragment。

5. reads与fragment的区别

转自:https://www.cnblogs.com/jinhh/p/8964790.html

Reads即是指下机后fastq数据中的每一条Reads,Fragments则是指每一段用于测序的核酸片段,在SE中,一个Fragments只测一条Reads,所以,Reads数与Fragments数目相等;在PE中,一个Fragments测两端,会得到2条Reads,但由于后期质量或比对的过滤,有可能一个Fragments的2条Reads最后只有一条进入最后的表达量分析。总之,对某一对Reads而言,这2条Reads只能算一个Fragments.

 转自:http://www.oebiotech.com/Article/jdcxzdcymc.html

 Fragments:就是打成的片段,而测序测的就是这些fragments, 测出来的结果就是reads,又可以分为单端测序和双端测序,单端测序的话,只是从fragments的一端测序,测多长read就多长,双端测序就是从一个fragments的两端测,就会得出两个reads。

8.FPKM:将RPKM中的read换成freagment来理解。如果是single-end测序,二者FPKM和RPKM是一致的。如果是pair-end测序,每个fragments会有两个reads,FPKM只计算两个reads能比对到同一个转录本的fragments数量,而RPKM计算的是可以比对到转录本的reads数量。

原文地址:https://www.cnblogs.com/BlueBlueSea/p/9896834.html