外显子分析:cutadapt,去除序列adapter详细解析

外显子测序时带有adapt接头,因此我们需要去除adapt接头,cutadapt的作用是去除adapt接头,一般用到如下命令:

cutadapt -a AACCGGTT -o output.fastq input.fastq

“-a”参数表明后面跟着的“AACCGGTT”是我们想要去除的adapt接头,如果你的外显子接头为其他序列,请将“AACCGGTT”改为你想去除的adapt接头;

“-o”参数后面跟着的是输出文件“output.fastq”;

“input.fastq”指的是输入文件;

输入文件必须是以下三种格式文件:

  • FASTA (文件名后缀: .fasta.fa.fna)
  • FASTQ (后缀: .fastq.fq)
  • 以上任何一种, 但压缩为 .gz (甚至 .bz2 和 .xz 都是允许的).

如果输入文件以.gz 为后缀的话,则去除adapt的命令为:

cutadapt -a AACCGGTT -o output.fastq.gz input.fastq.gz

如果通过“-o”没有输出指定文件,也可以用以下命令输出文件:

cutadapt -a AACCGGTT input.fastq > output.fastq

下图是用不同参数去除不同的adapt,左列是对adapt的描述,右列是我们去除该行对应的adapt时选择的参数:  

图来源(https://cutadapt.readthedocs.io/en/stable/guide.html)

下图是去除不同adapt时,剪切掉的序列范围模式图:

图来源(https://cutadapt.readthedocs.io/en/stable/guide.html)

对于不同的adapter和命令,去除效果如下:

"-a ADAPTER"去除ADAPTER后面所有的序列,即使是不完整的ADAPTER也可以去除,如ADAP

"-g ADAPTER"去除ADAPTER之前所有的序列,包括ADAPTER自己,即使是不完整的ADAPTER也可以,如DAPTER、TER

“-a ADAPTER$”在adapter上加$只能去除有完整的ADAPTER,且该ADAPTER在3’末端,后面不加任何其他序列,如下图第三列用该参数时不能被去除。

“-a FIRST...SECOND”该参数能去除首末端分别有FIRST和SECOND的adapter,即使是不完整的SECOND adapter也是允许的,如第二列。然而,当序列没有FIRST首端adapter序列时,则无法去除。

Ps:如果一条序列含有多个相同的adapter,则系统默认处理最左边的adapter,如“cccccADAPTERgggggADAPTERttttt”,当搜寻3‘ adapter时,序列修剪成“ccccc”,当搜寻5’ adapter时,序列修剪成“gggggADAPTERttttt”。

原文地址:https://www.cnblogs.com/chenwenyan/p/6265324.html