动植物基因组组装要点小结

组装策略

二代测序平台如Illumina、BGI,稳定可靠,数据质量高,成本低,读长短。
三代测序平台如PacBio、Nanopore,超长读长、无PCR扩增,错误率高,成本高。

现在物种的简单基因组基本已完成大多,纯二代组装已经没什么意义,复杂基因组或者高质量基因组基本都是三代测序为主。

由于经费限制,现在多为“”二代+三代“”以下两种组合策略:

  • 以三代为主组装,二代纠错;
  • 以二代为主组装到contig,三代scaffolding和gapfilling。

目前第一种策略为主流。

辅助技术

辅助组装解决的关键问题:contig/scaffold的顺序和朝向。

  • BioNano
    光学图谱技术是一个利用单个DNA分子基因组限制性内切酶图谱快速生成高分辨率、有序的全基因组限制性内切酶图谱的方法。
    目的是增加基因组Scaffold长度;减少Scaffold数量;对已组装的基因组进行纠错;检测大片段结构变异。

  • Hi-C
    一般为PE150测序。通过染色体构象捕获(3C)来确定全基因组范围内染色质DNA在空间位置上的关系,分群聚类。
    一般用来连接scaffold到染色体水平。如果不借助遗传图将基因组挂载到染色体水平。每一个基因组都需要一个Hi-C。

  • 遗传图谱
    一般连接染色体。不同的遗传图谱结果可能有差异,可以将多个图谱进行整合。

  • 转录组
    先组装转录组,再比对到参考基因组,更多的是用于辅助基因组注释。
    一般为PE150或三代全长Iso-seq,测多个不同组织。

  • 10X genomics
    同一长片段的reads加上相同的barcode信息,即linked-reads,从而提高reads的长度,本质上还是二代Illlumina测序。一般将short-read测序和10X的linked-read结合,可独立于三代。

随着三代的准确性提高和成本降低,未来基因组组装的标配:
PacBio纯三代组装contig + 光学图谱进行纠错与super scaffold组装 + 遗传图谱或HiC进行染色体组装。

三代+光学+Hi-C策略示意图:

image.png

PacBio补充

相比于Nanopore(电信号),PacBio(荧光信号)用得更多,主要有两种模式:

  • CLR(20-30kb),耗时长,准确性较低
  • CCS(15kb,HiFi),快,自身矫正,准确性较高

测序深度?
自然越深越好,经费不足,可能20~50X,充足70 ~100X。

二代测序的深度最好能达100X,而且一般要结合不同大小片段文库(PE和Mate)。

流程

image.png

主要分析内容

组装

  • 质控
  • 三代组装成contig
  • contig组装scaffold、chromosome
  • 纠错
  • 去污染(线粒体和叶绿体)

评估

  • contig、scaffold N50
  • 染色体数目
  • BUSCO完整性评估

注释

  • 重复序列
  • 基因结构
  • 基因功能
  • 非编码RNA

比较基因组

  • 基因家族聚类
  • 系统进化树
  • 分歧时间估算
  • 基因家族扩张与收缩
  • 基因组共线性
  • 正选择
  • 全基因组复制

解析Illumina+PacBio组装策略
10X Genomics vs. PacBioSOAPdenovo组装软件使用记录HiFi Reads基因组组装:快、准、狠
Pacbio三代基因组组装简介
光学图谱辅助基因组组装

原文地址:https://www.cnblogs.com/jessepeng/p/14271263.html