单细胞测序之质控分析(QC 质量控制)

单细胞测序之质控分析(QC)

为什么要做质控?

在细胞分离过程中的细胞损伤或者文库制备的失败(无效的逆转录或者PCR扩增失败),往往会引入一些低质量的数据。这些低质量的数据的主要特点是:

细胞整体上的counts值少(列),每列是一个细胞,细胞上的counts值少
基因的低表达(行),每行是一个gene
线粒体基因或者spike-in的比例相对较高
如果这些损伤的行或者列,没有被移除的话,可能会对下游的分析结果产生影响。所以我们在进行分析之前,一定要率先移除这些低质量的行与列。



质控的指标

每一个细胞所有基因的counts值之和
在文库制备的过程中,可能因为细胞的裂解或cDNA捕获和扩增效率的低下,而使得RNA的丢失。具有较小的counts值之和的细胞被认为是低质量的细胞,考虑被去除。

每一个细胞中单个基因的表达数量
多样化的转录本如果没有被成功的捕获到,因此任何一个细胞中有很少的基因表达,被认为是低质量的,考虑被去除。

每一个细胞中,spike-in序列/线粒体基因占总的counts值的比例
每个细胞中添加的spike-in序列(人为添加的表达量的参照系)的浓度都是等量的。如果spike-in的比值很高,那么就意味着在实验的过程中,大量的转录本丢失。

同样的,线粒体基因的高比例,也意味着这可能是由于穿孔细胞的细胞质RNA丢失,从而产生低质量的细胞。理由是,在存在适度细胞损伤的情况下,细胞膜上的孔允许单个转录物分子外排(丢失),但过小而无法使线粒体逸出,从而导致线粒体转录物的相对富集。


低质量细胞的影响
细胞破坏后,可能会导致线粒体或核RNAs占比升高(大量细胞质中mRNA流失,而线粒体或核RNAs含量基本不变),很有可能会根据这个结果形成自己的一个个cluster。
低质量的细胞一般文库比较小,而差异分析之前一般对文库大小进行一个归一化。比如正常细胞文库大小是100,某个基因表达量是2;损伤细胞的文库大小是10,这个基因表达量还是2。归一化后,损伤细胞中的这个基因表达量计算结果明显会高于正常细胞,呈现一种“本来不优秀,但班里人少了,排名就上升”的状态。
细胞损伤可能会伴随RNA的流失,因此许多基因可能会被认为“下调”,尤其体现在细胞质核糖体RNA(另外还包括一些细胞质转录本)。
影响方差估计和PCA结果。真实情况下,可能一个基因在两个细胞中差异并不显著,但是由于其中一个细胞质量低,导致基因表达量在这两个细胞中差异明显;反映在PCA结果就是:前几个主成分会抓取细胞质量的差异,因为这种差异体现得更明显,而将真正的生物学因素放到了后面几个主成分中,因此得到的PCA结果其实也只是反映了细胞质量的差异,而非真正的生物学差异。

如果一个细胞群体异质性较高,那么很有可能一些高质量细胞本身表达的数量就是比其他细胞少,但事实上它不是技术误差造成的。因此不能通过一个固定的阈值进行过滤,而要“因地制宜”,根据每群细胞各自的特性(比如各自的中位值),然后结合一定的统计指标(例如3倍的MAD)

过滤的细胞会不会属于某一个具有生物意义的细胞类群,如果真的是,那么就会有相应的marker基因高表达。


————————————————

https://blog.csdn.net/weixin_40640700/article/details/114538295
https://blog.csdn.net/weixin_40640700/article/details/114538295
https://www.plob.org/article/20886.html
https://www.bilibili.com/read/cv7221663/





原文地址:https://www.cnblogs.com/emanlee/p/14932294.html