与病毒共舞的伊蚊基因组

春夏之交,蚊虫渐起,香甜的睡眠中被嗡嗡的虫鸣吵起,赶又赶不走,找又找不到,可谓是最痛苦的体验之一了。昨晚卧室被蚊子侵入了,可恼没有准备驱蚊水,半宿无眠,配图体验感受: 

其实对于人类而言,蚊子的危害更在于它是许多病原传播的媒介。其中,做为黄热病、登革热、寨卡等多种病毒的传播媒介——伊蚊,可谓是“最毒之蚊”。

伊蚊,蚊科伊蚊属昆虫,是蚊科中最大的一属,主要的种类包括:埃及伊蚊(Ae. aegypti),白纹伊蚊(Ae. albopictus)等,这两种也就是我们俗称的“花蚊子”。

那么为什么蚊子可以传播病毒而不被感染致死呢?

因为蚊子的免疫系统比较特殊。简单的说,当外来的RNA病毒侵入时,蚊子基于RNAi的免疫防御机制能够通过dicer、argonaute蛋白以及Piwi蛋白和piRNAs等介导的信号通路,切割病毒RNA以免于感染。而这种免疫机制使得病毒能保持低水平的复制,从而能够通过虫媒传播。

本着生信R&D的职业操守(大雾),看到一个物种总想看看有没有相应的基因组学文献,找到了最近发表的伊蚊基因组文献,感觉还是很有意思的。

对于伊蚊,研究人员已经不是第一次进行基因组测序和denovo了。早在2007,埃及伊蚊就已经通过桑格法进行测序了,即LVP参考基因组;在2015年,通过Illumina测序平台进行测序,得到了参考基因组UCB。但是,由于伊蚊基因组非常复杂,重复元件比例很高,以前的伊蚊基因组并不能完整的反映全基因组的组分,尤其是在重复区域存在较多的缺失。因此,在最近的文献中,UCSF的研究人员采用最新的pacbio单分子测序技术,提升了测序reads的读长,得到迄今最完整的伊蚊基因组。

一. 测序基本信息

兵马未动,粮草先行。基因组学分析离不开完备的样本准备、严格的实验测序,甚至可以说,好的测序结果是好的分析结果的一半。而实际测序情况的复杂在于难以标准化,且对数据分析结果的影响往往难以界量。

伊蚊做为广泛研究的昆虫类模式生物,其测序的方法可以作为很好的样例。

测序材料

埃及伊蚊(Ae. aegypti)Aag2细胞系

测序平台

Pacbio RSII测序仪,P6/C4酶

文库构建

130 ug gDNA经打断和片段筛选得到37ug sheared DNA,经损伤修复后构建得到20.5ug的SMRTbell文库,文库片段筛选选择15kb的cutoff得到文库1,选择17kb的cutoff得到文库2,文库质检后再次损伤修复和磁珠清洗,得到用于上机的文库

上机测序

文库1上样浓度75-100 pM,文库2上样浓度40-60pM,上机测序时间6h

测序数据

文库1测得84个SMRT cells, 文库2测得32个SMRT cells,116个SMRT cells共得到92.7GB测序数据,平均subreads长度13.2kb

 

 

 

 

 

 

二. 基因组基本信息

与之前基因组比较,在完整性上,Aag2基因组大小达到1.7Gb,BUSCO单拷贝基因集注释率达到97%;而在连续性n50上,更是超过了以前基因组的两个量级以上。

 

UCB

LVP

Aag2

Sample

LVP strain

LVP strain

Aag2 cell line

Seq Strategy

illumina

Sanger

PacBio

Released

5/2015

6/2006

NA

Coverage

6.8x

7.6x

~50x

Genome size

744,596,036

1,383,957,531

1,723,930,323

Total gap length

196,533,049

73,881,199

0

Num of Contig

961,292

36,204

3,752

Contig N50

989

82,618

1,420,116

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

三. 基因组分析

在得到高质量的埃及伊蚊基因组上,研究人员讲了一个有趣自洽的故事。

首先,转座元件(TEs)的注释。

转座元件在基因调控上有着重要的作用,为基因组进化提供着变异来源。Aag2基因组上注释到的重复元件比例达到55%,而且数目远远多于之前的基因组。进一步分别计算了TEs的密度分布和Kimura divergence scores。

然后,内源性病毒元件(EVEs)的注释。

在埃及伊蚊的组装结果上,共发现来自8个病毒家族,368个EVEs,其中种类最多的三个家族是弹状病毒、黄病毒、楚病毒科。同时也发现,EVEs在基因组上的分布与TE聚群有着紧密的联系。其中,关联最大的一类转座元件正是长末端重复元件LTR。

进一步的研究表明,来自不同病毒家族的EVEs有着不同的近端TEs富集模式。例如,来源黄病毒和弹状病毒的EVEs临近区域富集Ty3/gypsy元件,而楚病毒科派生的EVEs与Pao Bel元件最临近。

最后,在不同种的伊蚊--埃及伊蚊和白纹伊蚊的比较中,EVEs存在着明显的差异。这表明伊蚊基因组上的EVEs在进化过程中可能受到了选择,而且与不同伊蚊的媒介能力有重要的关系。

 

这篇文献的作者是研究RNA病毒方面的专家,组分分析上也没有走常规路。"EVEome"的概念挺有趣的,基因组的演化不仅是内源的突变和重组,还包含着外源的竞争和整合。

伴随着高质量基因组的构建,研究人员对基因组组分的分析也更加深入和全面。在注释方面,不仅仅是关注编码基因,非编码基因(ncRNAs)以及转座元件(TEs)的研究也越来越受到重视。在遗传进化分析上,不仅仅是基于编码蛋白的比较基因组学分析,基于ncRNA和TEs的比较研究也越来越多。

原文地址:https://www.cnblogs.com/walle2008/p/6898168.html