Bulk RNA-seq 转录组分析

Reference :

https://cloud.tencent.com/developer/article/1703051

https://blog.csdn.net/weixin_44452187/article/details/86646409

http://www.360doc.com/content/18/0715/20/19913717_770622175.shtml

https://blog.csdn.net/weixin_30885111/article/details/96585912

http://ccb.jhu.edu/software/hisat/manual.shtml

我们自己测得的数据：

交代一下需要准备的数据：

首先要有双端测序的.fa.qz文件,要用网上下好的gene注释文件，hisat2需要用到，具体如何下载，见上面两个链接

注：也可以利用.fa文件生成对应的索引文件，命令如下：

$HISAT_HOME/hisat-build $HISAT_HOME/example/reference/22_20-21M.fa 22_20-21M_hisat

//构建索引的命令如上，跟bowtie一样我修改了一下

/home/jmzeng/hoston/RNA-soft/hisat-0.1.5-beta/hisat-build 22_20-21M.fa  my_hisat_index

//连日志都跟bowtie一模一样，哈哈，可以看到我们的这个参考fasta文件 22_20-21M.fa 就变成索引文件啦，索引还是很多的！

1. 先对数据进行质控

/home/glab/Shanyr/software/FastQC/fastqc -o ./20200910-Liver-D4/neg/ ./20200910-Liver-D4/neg/neg_R1.fq.gz ./20200910-Liver-D4/neg/neg_R2.fq.gz

2. 然后可以采用上面ref中的方法对数据进行质控，去掉认为是质量不好的reads

trim_galore：可以处理illumina，nextera3，smallRNA测序平台的双端和单端数据，包括去除adapter和低质量reads。
trim_galore的参数： trim_galore的参数在处理过程比较重要：

trim_galore -output_dir clean --paired --length 75 --quality 25 --stringency 5 seq_1.fasq.gz seq_2.fastq.gz

3. 比对，生成bam文件：“将RNA-seq的测序reads使用hisat2比对对参考基因租组”

/home/glab/Shanyr/software/hisat2-2.1.0/hisat2 -p 16 -x ../../../bulk_rnaseq/jky-z001/refdata-cellranger-hg19-3.0.0/genes/genome_tran -1 ../neg/neg_R1.fq.gz -2 ../neg/neg_R2.fq.gz -S ../neg/neg.sam

注： -1和-2分别表示双端测序的1个文件，后面跟的是文件路径，一定要注意 /data/RNAseq/mm10/genome文件的目录，genome这个不是文件夹，是index文件的前缀，我的mm10文件下并没有这个文件，如果不加genome就会发生如下报错：

4. htseq-count 生成计数矩阵

htseq-count -f sam -r name -s no -a 10 -t exon -i gene_name neg.sam ../../../bulk_rnaseq/jky-z001/refdata-cellranger-hg19-3.0.0/genes/genes.gtf > neg.txt