Chip-seq method to explore AFE dynamics during blood formation（science 2014年）（后附本人代码和研究思路，以及一些有用的graphs）

《Chromatin state dynamics during blood formation》

By David Lara-Astiaso, Assaf Weiner, Erika Lorenzo-Vivas, Irina Zaretsky, Diego Adhemar Jaitin, Eyal David, Hadas Keren-Shaul, Alexander Mildner, Deborah Winter, Steffen Jung, Nir Friedman, Ido AmitScience22 Aug 2014 : 943-949

虽然是2014年的science，但是数据非常好（小鼠全血，从HSC造血祖祖细胞，到髓系、淋系、红系的所有亚细胞）

对于构建血液分化过程中的转录组选择性剪切事件是非常好的研究模型；

那么废话不多说，我们选择这个14年的science，其中有183个（Chip-seq以及ATAC-seq的数据），52个RANseq的数据。我们分别用mm10（UCSC的基因组）对比。Chip-seq和ATAC-seq用chipseq pipeline中经典的bowtie2对比，RNAseq则用经典的二代比对方法STAR；

本文的关键就在chipseq的测序方法可以给我们提供更多的promoter、enhancer、TSS区域的信息；

整个基本的研究背景和蓝图：

hemocytes cells development：

Chipseq library and seqencing：

文章一些比较founding的结果：

我们可以看到enhancer的分布是在血液细胞的不同分化时期有明显的差异分布（根据%以及ratio值）：

以及观察enhancer在不同分化时期的获得以及损失量：

跟RNAseq的数据做比较：

（这是本人的小鼠数据所分析出来的有first exon差异同一基因的转录本，可以看到的是在exon区域rnaseq数据都非常好的reads mapping上去，同时我们的CHIPseq以及ATACseq数据在TSS区域都有一个很好的富集以及peaks的覆盖，但是promoter以及TSS区域的peaks通常都比first exon的reads位置要前移一些，更好更直观的看出了chip call peaks 与纯二代测序出来的reads的差别，和可揭示的不同深度和程度的生物学问题）

那么在分析chipseq数据的时候我按照chipseq标准流程：

从下载的sra文件、fq文件（质控）、bowtie2比对、bam文件（bam-QC，check比对率）、MACS（call peaks）、CHIPseeker做peaks的可视化、或者是自己通过bioconductor上的TFBSTool去找相应的高表达的peaks以及regulatory binding sites；

用一张非常简单的chipseq pipeline的示意图来展示一下基本思路：

代码展示如下：

#####将SRA 文件转化为fastq文件

for i in $(ls SRR*)
do
/usr/bin/fasterq-dump --split-3 -O ./raw_data/ $i

done

#########对fq文件进行QC

for i in $(ls *fastq)
do
/usr/local/bin/fastqc -f fastq -o ./qc_files/ $i
done

######对fastq文件用 bowtie2 进行比对，生成bam files（注意bowtie以及bowtie2的区别，以及与STAR的使用情况的区别）

for i in $(ls *fastq)
do
/usr/bin/bowtie2 -p 6 -3 5 --local -x /reference/UCSC/mm10/bowtie2_index/mm10 -U $i | /usr/local/bin/samtools view -bS - | samtools sort - > /bam_files/$i.bam
done

#####得到的bam文件进行sort以及index（by samtools）

####再用 bamtools 对相同 cell type 进行 merge 操作

/usr/bin/bamtools merge -list CLP_bamfiles.txt -out /merged_bam_files/CLP_merged.bam

#### 对merge好的文件去PCR重复

ls *merge.bam | while read id

nohup samtools markdup -r $id $(basename $id ".bam").rmdup.bam

done

#####bam to bed format

ls *rmdup.bam| while read id

bedtools bamtobed $id > $id ".bed"

done

###用MACS2 对bed 文件call peak（没有control sample）

ls *.bed | while read id
do
/usr/bin/macs2 callpeak -t $id -g mm --nomodel --shift 50 --extsize 100(reads length setting) -n ${id%%.*} --outdir ./callpeak_result/
done

######最后得到的文件就是