FunGene 功能基因数据库

背景:16SrRNA 基因通常作为分子标记进行微生物群落结构的研究,但是它有一些明显的限制,比如16S rRNA基因在物种中会有多个拷贝,而且,由于16S rRNA基因的进化速率较慢,在物种间保守,会存在多个物种的基因完全相同的情况,而且由于基因水平转移的发生,即使亲缘关系较远的物种,也可能出现基因序列完全相同的情况,更进一步讲,我们分析时通常只采用16S rRNA基因的某些区域,这导致物种间扩增出来的片段完全相同的概率大大增加;而一些蛋白编码基因,特别是一些参与重要的信号通路的基因,比如参与氮循环的的基因,这些基因出现水平转移的概率小,也可以作为分子标记来研究微生物的群落结构。FunGene 是一个免费的数据库,收录了许多功能基因的序列,而且提供了一些工具对功能基因进行分析。

网址:

    http://fungene.cme.msu.edu/

FunGene 将功能基因进行了分类,共分为下面7类:

以功能基因 nifh 为例,下载数据库中对应的蛋白质序列

点击对应的链接

跳转的界面如下:

从上面的截图可以看到,数据库中收录的序列是有重复的,其实FunGene的序列来源于GeneBank 数据库,而GeneBank 数据库是有冗余的,所以FunGene 也会有冗余现象,所以在下载完序列之后,需要去冗余

在去冗余的过程中需要注意,uncultured 代表无法单独培养的一些菌, 比如 uncultured bacterium 代表无法单独培养的细菌,这个是一类物种的简称,不是指同一个物种;

在实际的下载过程中,我发现,FunGene 一次只允许下载10000条序列。

参考资料:

    http://journal.frontiersin.org/article/10.3389/fmicb.2013.00291/full

原文地址:https://www.cnblogs.com/xudongliang/p/7120116.html