samtools faidx

$ samtools faidx t1.fa && echo "faidx built"

$ cat t1.fa.fai
scaffold332     2588    13      100     101
scaffold322     8291    2640    100     101
scaffold342     24194   11027   100     101
scaffold191     43246   35476   100     101
scaffold1157    21100   79169   100     101

$ samtools faidx t1.fa scaffold332 > scaffold332.fa

$ cat scaffold332.fa |head -4
>scaffold332
TTCTGTGAGATCTCTCTGAAAAATAATTGAGAAATCAAGATATTTCAAGCTTTCAGTAAA
AAGGTGAGGCGGAGAATGGAAAAGTGAAAAATTCAGAAGGAACTTGTTCCTAGATTACAG
AGCAGTTTTAAAAATGAGGTAGACATCGGATAAGAAAACAGACCTCAGAAATGCCTAGGA

 $ cat scaffold332.fa |tail -4
 CATTTGAGAGTAATTTCTAATACATGCAAGCCTTTGAACAGATGCTACATAAGACAGTCA
 GAAGCAATTTCTTAAAAAAAATAAAACAAGCACCCCCCAAACCCCAAAGCACCCACTGAG
 ACCTCAGTACGGCACAATGCTTAAGCATCTGCTCGAGCTTAGTTTCAGTACTTGTTAGGT
CACACTGA

第一列 NAME   :   序列的名称,只保留“>”后,第一个空白之前的内容;

第二列 LENGTH:   序列的长度, 单位为bp;

第三列 OFFSET :   第一个碱基的偏移量, 从0开始计数,换行符也统计进行;gff文件中的mRNA start那一列的值

第四列 LINEBASES : 除了最后一行外, 其他代表序列的行的碱基数, 单位为bp;

第五列 LINEWIDTH : 行宽, 除了最后一行外, 其他代表序列的行的长度, 包括换行符, 在windows系统中换行符为 , 要在序列长度的基础上加2;

原文地址:https://www.cnblogs.com/yuanjingnan/p/11230665.html