单细胞测序之质控分析（QC 质量控制）

单细胞测序之质控分析（QC）

为什么要做质控？

在细胞分离过程中的细胞损伤或者文库制备的失败（无效的逆转录或者PCR扩增失败），往往会引入一些低质量的数据。这些低质量的数据的主要特点是：

细胞整体上的counts值少（列），每列是一个细胞，细胞上的counts值少
基因的低表达（行），每行是一个gene
线粒体基因或者spike-in的比例相对较高
如果这些损伤的行或者列，没有被移除的话，可能会对下游的分析结果产生影响。所以我们在进行分析之前，一定要率先移除这些低质量的行与列。

质控的指标

每一个细胞所有基因的counts值之和
在文库制备的过程中，可能因为细胞的裂解或cDNA捕获和扩增效率的低下，而使得RNA的丢失。具有较小的counts值之和的细胞被认为是低质量的细胞，考虑被去除。

每一个细胞中单个基因的表达数量
多样化的转录本如果没有被成功的捕获到，因此任何一个细胞中有很少的基因表达，被认为是低质量的，考虑被去除。

每一个细胞中，spike-in序列/线粒体基因占总的counts值的比例
每个细胞中添加的spike-in序列（人为添加的表达量的参照系）的浓度都是等量的。如果spike-in的比值很高，那么就意味着在实验的过程中，大量的转录本丢失。

同样的，线粒体基因的高比例，也意味着这可能是由于穿孔细胞的细胞质RNA丢失，从而产生低质量的细胞。理由是，在存在适度细胞损伤的情况下，细胞膜上的孔允许单个转录物分子外排（丢失），但过小而无法使线粒体逸出，从而导致线粒体转录物的相对富集。

低质量细胞的影响
细胞破坏后，可能会导致线粒体或核RNAs占比升高（大量细胞质中mRNA流失，而线粒体或核RNAs含量基本不变），很有可能会根据这个结果形成自己的一个个cluster。
低质量的细胞一般文库比较小，而差异分析之前一般对文库大小进行一个归一化。比如正常细胞文库大小是100，某个基因表达量是2；损伤细胞的文库大小是10，这个基因表达量还是2。归一化后，损伤细胞中的这个基因表达量计算结果明显会高于正常细胞，呈现一种“本来不优秀，但班里人少了，排名就上升”的状态。
细胞损伤可能会伴随RNA的流失，因此许多基因可能会被认为“下调”，尤其体现在细胞质核糖体RNA（另外还包括一些细胞质转录本）。
影响方差估计和PCA结果。真实情况下，可能一个基因在两个细胞中差异并不显著，但是由于其中一个细胞质量低，导致基因表达量在这两个细胞中差异明显；反映在PCA结果就是：前几个主成分会抓取细胞质量的差异，因为这种差异体现得更明显，而将真正的生物学因素放到了后面几个主成分中，因此得到的PCA结果其实也只是反映了细胞质量的差异，而非真正的生物学差异。

如果一个细胞群体异质性较高，那么很有可能一些高质量细胞本身表达的数量就是比其他细胞少，但事实上它不是技术误差造成的。因此不能通过一个固定的阈值进行过滤，而要“因地制宜”，根据每群细胞各自的特性（比如各自的中位值），然后结合一定的统计指标（例如3倍的MAD）

过滤的细胞会不会属于某一个具有生物意义的细胞类群，如果真的是，那么就会有相应的marker基因高表达。

————————————————

https://blog.csdn.net/weixin_40640700/article/details/114538295
https://blog.csdn.net/weixin_40640700/article/details/114538295
https://www.plob.org/article/20886.html
https://www.bilibili.com/read/cv7221663/