bcftools或vcftools提取指定区段或者多个指定位置的vcf文件(extract specified position )

1、bcftools提取指定区段的vcf文件

下载安装bcftools

见如下命令:

bcftools filter 1000Genomes.vcf.gz --regions 9:4700000-4800000 > 4700000-4800000.vcf

  注意:输入的vcf以gz格式存在,不然会报错:Failed to open 1000Genomes.vcf: not compressed with bgzip

                  如何将vcf生成gz格式,见这篇文章bcftools将vcf生成bgzip和index格式

2、vcftools提取多个指定位置(不是一段区域)的vcf文件

如果只想提取指定多个独立位置(specific position)的基因型(genotypes),则可以用到vcftools工具

(此段感谢健明兄特意提出来,语言描述的不是很清楚。)

命令行如下:

vcftools --gzvcf file.vcf.gz --positions specific_position.txt --recode --out specific_position.vcf

  specific_position.txt的输入格式如下:

1 842013
1 891021
1 903426
1 949654
1 1018704

参考链接:https://www.biostars.org/p/162872/

原文地址:https://www.cnblogs.com/chenwenyan/p/9213394.html