RNAseq分析全流程

安装conda

wget -c https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

# 取消conda自动激活
conda config --set auto_activate_base false

#创建conda环境
conda create -n RNA-seq python=3.6.2

# 添加几个通道
conda config --add channels r
conda config --add channels defaults
conda config --add channels conda-forge
conda config --add channels bioconda

# 无论是conda默认的软件源还是bioconda软件源都是国外的，速度非常慢，所以需要增加国内软件源，同时bioconda已经有清华，中科大两个国内镜像，也添加进去
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes  ## 设置搜索时显示通道地址
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/

#查看目前conda软件源情况
conda info

下载水稻的参考基因组文件和注释文件

wget -c https://rapdb.dna.affrc.go.jp/download/archive/irgsp1/IRGSP-1.0_genome.fasta.gz # 下载基因组文件
wget -c https://rapdb.dna.affrc.go.jp/download/archive/irgsp1/IRGSP-1.0_representative_2021-05-10.tar.gz # 下载注释文件

下载水稻冷胁迫下测序数据

# 安装sratoolkit
conda install -c bioconda sra-tools

# 下载数据
cat SRR_Acc_List.txt | xargs prefetch -v

将sra文件转换为fq文件

for id in `seq 10 25`;
do
	fastq-dump --gzip --split-3 -O ~/data/RNA-Seq/fastq -A SRR66558${id}/*
done

# 该步骤耗时较长，可并行

得到了fastq文件我们就可以采用不同的RNA-seq protocol来进行分析

RNA-seq protocol

本应该有数据质量检测，此处略过

建立基因组序列索引

# 安装hisat2
conda install hista2

# 建立存放索引文件的目录
mkdir rice_hisat2_index
hisat2-build -p 16 IRGSP-1.0_genome.fasta rice

# 建立存放水稻注释文件的目录 
mkdir rice_gff

将测序数据比对到参考基因组上

for i in `seq 10 25`
do
	hisat2 -p 16 -x /home/hgdai/RNA-seq/ref/rice_hista2_index/rice -1 /home/hgdai/RNA-seq/fastq/SRR66558${i}_1.fastq.gz -2 /home/hgdai/RNA-seq/fastq/SRR66558${i}_2.fastq.gz -S /home/hgdai/RNA-seq/align/SRR66558${i}.sam --new-summary --summary-file /home/hgdai/RNA-seq/fastq/SRR66558${i}.ht2.txt
done