单菌基因组测序常见问题

在单菌基因组的组装结果中,N50和N90代表什么意思?
大于N50长度的序列占基因组总长的50%,大于N90长度的序列占基因组总长的90%。
1、N50和N90是基因组组装中常用的组装指标,其含义为,将序列按照长度从大到小排列,依次计算大于该序列长度的序列总长,找到序列总长度刚好大于基因组总长度的50%(90%)位置,则该序列的长度定义为N50(N90);
2、该数值反映了基因组50%(90%)以上的区域,都能被该数值以上长度的序列覆盖,同时体现了组装质量对于后续数据分析的质量贡献。
 
碱基Error rate数据是怎么算出来的?
碱基的质量值Q是准确度(P)的一种格式转换,是为了方便使用一个字符表达;转换公式为P=1-10^(-Q/10),如Q=30/20/10的准确度分别为99.9%,99%,90%。
Error rate是单个碱基位置错误率的期望值,采用的是取对数平均值的算法,首先对该碱基位点的Q值取平均值,然后折算回错误率。例如,Reads某位置处平均Q值为20,则对应的错误率为0.01。
 
在有杂菌污染的情况下,为什么得不到好的组装结果呢?
不同物种会有非常多的同源序列,高度相似序列会对组装软件产生干扰,而软件为保证组装的准确性,只能将可疑的部分切断成不同的碎片序列
1、组装软件在组装过程中,是将测序数据看作来自同一个基因组的前提下进行组装的;
2、如果有外源DNA污染,其中不同来源的DNA中会有不同程度的相似性序列和非相似性序列,这些复杂的关系会对组装软件产生干扰,而软件为保证组装的准确性,只能将可疑的部分切断成不同的碎片序列,导致最终组装结果只能获得碎片化的序列,而失去了组装本身想要达到的效果;
3、如果能够找到足够近缘的参考基因组用于污染分离,也可以对上述的结果进行一定程度的改善。然而,由于外源DNA本身可能携带一定的相似序列,并且目标基因组和参考基因组间会存在潜在的差异,进而导致分离的结果会产生一定的假阳性和假阴性;
4、综上所述,即使是在污染分离后进行组装,也是无法达到纯DNA的组装标准的。
 
在完成图中,为什么有的质粒可以成环,而有的却不能?
不同质粒拷贝数和被测到的深度不同
我们在分析样品基因组的测序深度时发现:染色体的reads测序深度在100×左右,成环质粒的测序深度在80×左右,而不成环质粒测序深度仅在20-40×左右。所以,很可能是因为这些样品的质粒拷贝数较少(与质粒本身的稳定性有关,可能发生丢失),导致质粒的测序深度不充分,因此在质粒基因组组装时无法成环。
 
在重测序中,为什么只能得到插入/缺失了碱基的数目,却得不到插入/缺失的具体位置与序列信息?如何能够获得具体的序列信息呢?
1、在重测序中,SV检测分析是可以得到样本相对于参考基因组的一个大概的DEL序列的。但是,由于重测序中只是对于文库片段的两端进行测序,所以中间INS序列暂时无法检测到;
2、理论上而言,可以对插入位置附近设计引物,通过PCR扩增出具体的序列。另外,也可以通过局部组装附近的reads来获取中间的序列信息(主要取决于局部组装的效果)。
 
在真菌基因组测序时,比如61个contig中,为什么只有18个contig得到注释呢?
真菌全基因组数据库太少,连ITS注释都很少,这几年正在快速发展
这些基因是全部基因组的预测结果,个数相对较少的原因主要为: 
1. 可能该物种本身基因个数就相对较少,因此得到注释的结果会出现偏少的现象;
2. 我们在真菌精细图基因预测中,采用的软件是augustus,是根据现有研究的真菌基因模型及序列结构,对编码区进行预测的,对于在NCBI中没有找到已公布信息的结构序列,则表明目前对于该序列的研究结果相对较少,或对于该基因结构的研究还不是很成熟,因此也会导致预测的结果偏少。
 
次级代谢产物基因簇注释分析中,为什么会出现没有预测到PKS(聚酮合酶)和NRPS(非核糖体肽合成酶)结构的情况呢?
在次级代谢产物基因簇注释分析中,分两步进行分析:
1. 首先,我们先对是否存在PKS(聚酮合酶)和NRPS(非核糖体肽合成酶)进行预测;
2. 其次,根据目前软件训练集中的基因簇的结构进行预测,如果训练集中的基因簇中有匹配的结构就会被预测出来,否则就会无法预测到;
3. 简而言之,如果无法预测到PKS(聚酮合酶)和NRPS(非核糖体肽合成酶)结构,可能是由于样本本身就不存在这两种酶,或者是这两种酶的结构与训练集中的结构不匹配。
 
如何在注释结果里查找某个特定的功能基因?
方法一:可通过在文件夹“Result/04.Genome_Function/Anno Summary/*.Anno Summary.xls”中去进行关键词检索;
方法二:在KEGG数据库的注释结果中,通过EC酶学的编号来进行检索。比如要查询“环己胺氧化酶”,可以先在KEGG数据库网站http://www.kegg.jp/上检索“cyclohexylamine oxidase”关键词,从而获得对应的EC编号,然后在KEGG的注释结果中,检索对应的EC编号即可;
方法三:也可根据提供的功能基因的核酸或蛋白质序列,进行blast比对。
 
如果关注的基因没有被注释出来,是什么原因呢?
1、有可能该基因在组装时没有被组装出来;
2、该基因在目标基因组上可能根本不存在;
3、在注释的数据库里还没有该基因的信息,所以无法注释出来;
4、研究这株菌中,根本不存在这个基因,还需要进一步确定该菌株中是否真的含有该基因。
原文地址:https://www.cnblogs.com/freescience/p/7277510.html