使用Platanus进行基因组组装

1. 软件安装

下载的两个文件分别是主程序和说明文件。

$ mkdir /opt/biosoft/platanus
$ wget http://platanus.bio.titech.ac.jp/Platanus_release/20130901010201/platanus -P /opt/biosoft/platanus
$ wget http://platanus.bio.titech.ac.jp/Platanus_release/20130901010201/README -P /opt/biosoft/platanus
$ chmod 755 /opt/biosoft/platanus

2. 使用

platanus 下包含三个命令，分别是 assemble， scaffold， gap_close 。其用法如下：
这 3 个命令的共同参数为：

-t 使用的线程数，此值<=100，默认值为 1 。
-o 输出文件的前缀，默认值为 out 。

3. 组装

此命令基于 Bruign 图的算法来组装出 contig

-f FILE1 [File2 ...]
输入的文件，支持输入的文件总输入最大为 100 。文件可以为 fasta 或 fastq 格式。 软件会自动识别其格式。不会运用到碱基质量值，碱基质量值对组装无任何影响。
-k INT
初始的 k-mer 大小，默认值为 32 。数据覆盖度低时，该值要设小些。
-s INT
k-mer 值的步进。此值必须 >= 1，默认值为 10 。程序会使用多个 K-mer 值进行 contigs 组装。
-n INT
初始的 k-mer 覆盖度的 cutoff。 默认值为 0，即自动取值。自动取值依赖于 k-mer 的频率分布。如果其分布不正常，则应该手动设置。
-c INT
设置最小的 k-mer 覆盖度。默认值为 2 。在 k-mer 值越大的时候，则 k-mer 覆盖度越小，其 cutoff 值越小，但此 cutoff 值不能低于此参数设置的值。
-a FLOAT
K-mer 值增大的安全性水平，默认值为 10.0 。增大最终的 k-mer 值。如果牺牲准确性来延伸 contig，则设置较低的值，比如为 5.0 。
-u FLOAT
消除气泡所运行的最大差异，默认值为 0.1 。此值越大，则越容易消除气泡。特别是基因组杂合率高时，此值推荐设置更高，比如为 0.2 。
-d FLOAT
当分支的覆盖率超过此值时，则截断分支，默认值为 0.5 。此值越小，则准确率越高。如果碱基错误率较低，则适合设置较低的值，比如 0.3 。
-m INT
限制内存，单位为 GB，默认值为 16 。当程序需要消耗的内存超过此值，则会提示警告，但不会中断运行。

此程序输出的文件为

PREFIX_contig.fa  组装出的连续的序列
PREFIX_contigBubble.fa  融合并删除的气泡序列
PREFIX_kmerFrq.tsv  k-mers 频数的分布

参考来源：

http://www.chenlianfu.com/?author=1&paged=13