FastQC及MultiQC整合使用

FastQC

FastQC 是一个基于Java写的测序数据质量评估软件。因为是用跨平台的语言Java写的,自然而然FastQC应是可以在不同系统运行的了。不过也许大多时候我们还是在Linux服务器上用的多吧。

安装

安装软件,方便的还是通过conda了,一行命令:

$ conda install -c bioconda fastqc -y

当然这需要你已经安装了anaconda的前提下。

若没有的安装anaconda的话,可以选择安装anaconda(这更方便点)或者用使用官方安装方式。
官方软件包下载:

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

官方安装说明:

https://raw.githubusercontent.com/s-andrews/FastQC/master/INSTALL.txt

这里需要提醒的是一般Linux系统是已经安装了Java的了。而若在Window下,则需要先安装好Java可以使用FastQC。
若在有桌面环境的电脑下,FastQC其实提供了交互式的GUI操作界面,具体使用参考上面的官方安装说明
Win10 FastQC

使用

FastQC GUI操作界面看上图就发现了很简单。不过多数我们还是通过Linux命令行使用,这更灵活一点。下面以CentOS7 下的 FastQC v0.11.9为例进行简单讲解。

fastqc [-o output dir] [-t threads] [-f fastq|bam|sam] seqfile1 .. seqfileN
参数 说明
-o 指定输出目录
-t 线程数
-f 输入文件格式,默认是fastq的
seqfile 位置参数,输入文件,可输入多个文件或使用通配符匹配多个文件

例如下面例子,采用10个线程,输出地址是atac, 输入文件包裹通过*匹配多个文件作为输入

$ fastqc ATAC.1*day.r*.fq.gz -o atac/ -t 10

输出报告是html网页文件,需要传到win下方便查看。有多少个输入文件,就有多少个html报告。

若需要详细的参数说明可使用参数-h

$ fastqc -h

以及查看官方文档(也提供了一些质量报告例子供参考):

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

fastqc

MultiQC

FastQC的输出是每一个输入文件对应一个输出报告,当有多个输入文件,会产生多个输出报告。这时一个一个查看,以及它们之间需要对比的也不是很方便。MultiQC的产生解决了这个问题,它可以将FastQC产生的多个输出报告,整合为一个,方便查看。

安装

MultiQC 是个Python包,可以通过pip下载

$ pip install multiqc

$ conda install -c bioconda multiqc

使用

MultiQC 有很多参数的,下面例子是个简单示例。

$ multiqc  atac/ -o all -n test
参数 说明
dir atac/, 分析整合目录
-o 整合后的输出目录
-n 输入文件名字,默认multiqc_report

参考

https://multiqc.info/
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

原文地址:https://www.cnblogs.com/huanping/p/14321909.html