变异检测

一、Indel

 Pindel:跟其他Call Indel的软件不大一样,Pindel用的是一个叫pattern growth的算法来检测Indel以及其他的结构变异(所以才叫P-Indel的吧),具体算法:http://gmt.genome.wustl.edu/packages/pindel/引用次数还算可以,说明还是有一定优势的

samtools view LXZ_final.bam | sam2pindel - LXZ_pindel_output 350 tumor 0 Illumina-PairEnd

 需要六个参数:

  1. Input sam file or - for cin.(-表示标准输入作为input)

  2. Output for pindel.

  3. insert size.

  4. tag

  5. number of extra lines (not start with @) in the beginning of the file. 

  6. Which sequence platform: Illumina-PairEnd or Illumina-MatePair.

 

pindel -f human_g1k_v37.fasta -p LXZ_pindel_output -c ALL -T 8 -o LXZ

  -p 是输入文件(上一步的输出结果)

  -c 用来设定区域范围,-c ALL就表示整个基因组

  -T是线程数

  -o 输出结果的前缀,默认情况下会输出所有的插入缺失或者结构变异类型,分别生成以下后缀名结尾的文件:

    D = deletion 缺失序列

    SI = short insertion 短的插入序列

    INV = inversion 转位

    TD = tandem duplication 串联重复

    LI = large insertion 长的插入序列,这个文件的格式跟其他文件的很不相同

    BP = unassigned breakpoints 没有分到上面任意一种类型剩下来的断点

  pindel2vcf这个程序把这些文件转换成我们常用的vcf文件,方便下游处理:

pindel2vcf -p LXZ_D -r human_g1k_v37.fasta -R 1000GenomesPilot-NCBI37 -d 20100517 -v LXZ_del.vcf -G

  -R需要为参考序列的设定一个名称

  -d还要设定日期(就是这个参考序列生成的日期),当然随便设应该也没什么问题,主要还是为了规范化

  -v是生成的vcf文件的文件名。生成的vcf文件不是那么的标准,用GATK这种软件处理的时候可能不太方便,可以加上-G这个参数来让它尽可能符合GATK输入文件的要求。

原文地址:https://www.cnblogs.com/always-fight/p/9076834.html