高通量测序的相关概念

什么是Read? 
高通量测序平台产生的序列标签就称为reads。
什么是Contig? 
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。
de-novo组装
是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold
什么是测序深度和覆盖度coverage? 
测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的

原文地址:https://www.cnblogs.com/yupeter007/p/6019735.html