知乎Live总结-重复nature文章笔记Single-cell

来自知乎Live-孟浩巍 

1.文章重要技术及图讲解

首先在转录组RNA-seq中,有基因表达差异、基因融合、可变剪切、RNA单点突变。

在基因组中,单点变异、结构变异,CNV变异(拷贝数变异)

 三类基本内容,主要是RNA-seq的分析。

从生物水平角度理解肺癌,掌握RNA-seq的建库流程 ,单细胞的建库流程和方法。

这个是通过热力图的方式,找出5种细胞中的特异性的gene marker,什么是基因标记,在某一个stage或者细胞内特异性表达的基因是基因marker。

 0-15图标是取过log的fpkm,每一行是一个细胞的数据(约有80行),每一列一个基因的数据(有100+列)选取了100多个有代表性的基因。

左侧的rep1,2,3是聚类,是批次的意思。时间间隔大的叫做两个batch,同样的方法去做生物学重复叫repeat。每一个Repeat都有一个侧重点,根据颜色深度。颜色分布比较均匀说明不是因为聚类原因才导致的当前结果。

*是什么意思?表示相对应的细胞中的差异表达基因gene marker。

bp细胞可以分划为AT1和AT2细胞,导致基因表达谱逐渐发生变化,到6和4表达谱就完全不同了,包含了基因表达调控的过程。

灰色大括号:这个部分是两个Stage显著变化的基因。

①左边绿色的部分,在胚胎发育过程当中的14.5天,16.5天到成熟时期分别进行了RNA-seq;

②右上角的基因fpkm基因表达量,越深表达量越低,越亮表达量越高;

③最左边的颜色部分是为了区分细胞。Early progenitor(早期祖先)。

④每一行是一个单细胞,每一列是一个基因。那么同一细胞之间是有聚类在一起的。调过参数、使用trick选择部分基因,才让BP出现在中间的,AT1和AT2是由BP发展而来的。

启示:能做出来这个结果,客观上真假不能确定,这种参数条件下能出来这种结果。

⑤横轴底部是将细胞分成不同的时期。

 是boxplot的补充,随着分化的进行。随着分化的进行,纵向是不同的细胞类型,横轴是不同的基因list。

 ————使用RNA-seq,提供了分化表达时的基因marker,给出了每个过程较重要的基因list。

建库做了100+个细胞;PCA分析;花了很多的heatmap并且用到了聚类方法;用到了GO分析;画了whilelink???

 2.具体技术细节

 

建库方法1:成熟的mRNA有5'端的帽子和3'端的PolyA尾巴,直接对PolyA富集,那么就可以针对成熟mRNA了,但是这样就扔掉了很多不成熟的。

建库方法2:rRNA minus去除法。

核糖体主要分布在两个位置:糙面内质网和游离态,主要是在内置网上。

这个是核糖体的结构,黄色部分是rRNA,蓝色部分是核糖体蛋白。可以看出rRNA占了较大部分,核糖体蛋白主要是维持结构稳定。

 

//这个一开始看一脸懵,经过讲解看懂了。

左边是真核生物的rRNA,有一个大亚基和一个小亚基,其中大亚基是由5.8S,5S,28S这三种rRNA组成的,小亚基由18S rRNA组成的。

 这四种亚基占细胞内RNA的比例99%以上,所以在建库时必须要去掉rRNA。

以上是部分关于建库的生物知识,下面是传统mRNA建库的正式的步骤:

Ⅰ.提取mRNA

 

1.使用Oligo dT磁珠对成熟的mRNA进行富集;

2.然后进行cDNA反转,就是根据mRNA得出互补的DNA基因片段;

3.打断成片段

4.加接头

5.进行PCR扩增

重点:3-4打断的过程,应该会不一般齐,有一个末端补平的过程,然后再加上一个A粘性末端,之后就可以加上测序的引物,引物是Y型的adaptor.

Ⅱ.rRNA minus方法

//这个听了两遍还是不太明白,是不是讲错了一点?

首先是将所有的RNA提取,然后是用磁珠将rRNA先去掉一遍,然后打碎,接上adaptor;转换成cDNA,如果此时还有rRNA,那么加入RNaseH进行消化掉,之后对加上引物cDNA进行扩增。

之后的过程就是一样了,这不就是建库完成了吗?~~~

//很不明白这是什么意思,为什么要测基因表达差异呢?有什么作用呢???

那么如何判断提取的RNA的质量呢?通过电泳图,如上。

最左边是Gene marker,接着从左到右依次是从好到坏,最好的就是左边第二条,最差的是最右边的。 

有人提问如何去 tRNA,回答是由于长度的选择会将tRNA筛掉。(我怎么就没想到这个问题呢?还是水平不行。)

这个图是一个量化RNA提取水平,RIN(RNA完整数),需要有这些region和一些fragment。

下面给出了几个标准:

RIN越大越好,提取组完全没有降解,可以进行下一步。一般要求RIN7以上,低于则建库失败。

有人提问:如何判断提取的RNA中有没有被别的物种污染? 

答:这个是需要进行比对的,测序之后的GCcontent是可以看出来的,如果比对不上那么就BLAST。

有人提问:那个rRNA去除的时候那个磁珠是可以特异结合rRNA的?

答:是特异结合的,有两步的去rRNA的,第一步就是磁珠,第二步是加入rRNA降解酶消化掉。(为什么这种问题我没有想到?其实我这个地方是不太明白的,我的想法是以后有问题再百度,为什么我没有提出问题呢?。。。这就是差距,以及性格问题)

3.单细胞测序入门

分为两种:DNA水平测序;RNA水平测序。 

比如本篇文章的五种,肺部细胞最终形成了5种:科普一下:

小肺泡细胞(I型)、大肺泡细胞(II型肺泡细胞)、肺巨噬细胞等等类型。

这几种细胞的基因表达都不同,这就是单细胞存在的意义,就是基因差异性表达呗!

比如在上图中右部有一个红块,细胞1中ABD基因表达,细胞2中ABC基因表达....如果一块测那么所有肯定是都表达。

下面是09年的早期single-cell的Rna-seq老师提出的方法:

提问:大家可以思考一下,为什么传统的RNA-Seq不能做单细胞?

//我刚入门,感觉一脸懵,不知道。

只要有富集的过程,效率都是非常低的,能富集到10%就非常多了。总之就是富集效率低!

细胞裂解-> 带有T的primer直接进行cDNA反转-> 再加上polyA-> 再合成UP2-> 使用PCR扩增-> cDNA打断-> 绑定Adaptor-> 库扩增。

//为啥这里有一个cDNA的扩增呢?应该直接打断+adaptor,然后再PCR啊。

这里还是应该对cDNA有所学习: 

与mRNA互补的DNA,是与RNA互补的单链DNA,在反转录酶的作用下合成的;合成完之后再在碱作用下去掉RNA,再合成双链cDNA,与原来基因中的DNA不同而且没有内含子! 

 

这个就是cDNA双链的合成过程,还是比较容易理解的!

**所有单细胞测序scRNA-seq的就是先反转再富集,一旦有富集就肯定做不到单细胞。 

PCR扩增长度是有一定限制的(但是为什么为什么为什么?那里并没有打断就进行了PCR amplification呢???这不是相矛盾了吗???) 

PCR扩增时有偏倚bias,它偏向于扩增GC含量高的。 

下面是smart-seq的过程:

就是上边这个过程了,多加一个ployA,合成时加了一个CCC,之后用特殊酶Tn5直接会识别4个碱基并加上Adaptor,  

接下来的过程和RNA-seq还是差不多的,首先是质控,mRNA前处理,回帖(也就是比对),计算不同基因表达量,比较差异表达。 

有个人提问:全程没有rRNA去除的步骤,是不是pcr扩增mRNA之后rRNA被稀释了?(我为什么没想到,之前你想想建库的时候不就是苦于rRNA过多吗???)

答:+adaptor其他的序列是加不上的,所以建库是建不了rRNA的。(感觉live主这个回答的有点水,不具体)

//有可能是只有有一个polyA的才能再加一个polyA ???我是这么理解。

原文地址:https://www.cnblogs.com/BlueBlueSea/p/9827764.html