生信数据下载（转）

需要了解的知识点：

测序仪原理

一、数据下载

生物信息学常见的数据下载，包括基因组，gtf，bed，注释

http://www.biotrainee.com/thread-857-1-1.html

各版本对应关系：

http://www.bio-info-trainee.com/1469.html（生信技能树）

测试数据及参考基因组准备：

http://www.biotrainee.com:8080/thread-731-1-7.html

变异位点数据库准备：

http://www.biotrainee.com:8080/thread-733-1-7.html

人的基因组测序数据：

https://www.ncbi.nlm.nih.gov/sra/?term=SRX252522

另一个人的基因组测序数据：

https://www.ncbi.nlm.nih.gov/sra/?term=SRX247249

KPGP-00001样本数据：

网址是ftp://ftp.kobic.re.kr/pub/KPGP/2015_release_candidate/WGS/KPGP-00001/，大家在自己的服务器敲这个命令就好了：

nohup wget -c -r -nd -np -k -L -p ftp://ftp.kobic.re.kr/pub/KPGP/2 ... 000011>/dev/null 2>&1 &

我会同步处理这个数据，还有我自己的数据。下载完了之后，用md5文件进行校验一下（该截图是未完全下载的例子，只是想说md5码相同代表下载完全）

二、数据分析流程

变异分析流程：

http://www.biotrainee.com:8080/thread-736-1-1.html(生信技能树)

http://www.htslib.org/workflow/（Heng L）

http://www.bio-info-trainee.com/1114.html（生信菜鸟团）

1、测序数据质量评估：

Rawreads：统计原始序列双端read pair总数目;根据FASTQ的格式，以四行为一个单位进行统计。

Raw data：统计原始序列数据量。

Effective：过滤后用于后续的生物信息分析的Clean reads占原始数据的比例。

Error rate：通过公式一计算得到。

Q20、Q30：分别计算 Phred 数值大于20、30的碱基占总体碱基的百分比。

GC content：计算碱基G和C的数量总和占总的碱基数量的百分比。

2、参考序列比对分析

参考序列比对分析也是重点，如果测了一大堆的序列，都无法比对到人的基因组上面，或有倾向性的比对到部分基因组，又或者基因组某些区域没有覆盖到，那再好的数据也是白瞎！下面这幅图就打消了我的疑虑！

通过这幅图可以看到，该公司的测序数据能较好的覆盖基因组的所有染色体，覆盖率都近似于100%，所以根据这个数据，我可以充分地的对我的基因组中的每一个基因是否跟参考基因组有区别，有哪些区别进行全面分析！而且平均测序深度也比合同规定的30X要超出很多！

Total：clean data双端总reads数目

Duplicate：重复的reads数目

Mapped：比对到参考基因组上的总reads数目（比例）

Properlymapped：比对到参考基因组且方向正确的reads数目（比例）

PEmapped：双端reads比对到参考基因组上的reads数目（比例）

SEmapped：仅单端read比对到参考基因组上的reads数目（比例）

withmate mapped to a different chr：比对到不同染色体的reads数目

withmate mapped to a different chr (mapQ>=5)：比对到不同染色体且比对质量不低于5的reads数目

Average_sequencing_depth:：比对到参考基因组的平均测序深度（测序数据量/基因组大小）

Coverage：比对数据对全基因组区域的覆盖度（碱基覆盖长度占全基因组碱基总长的比例）

Coverage_at_least_4X:：全基因组区域中碱基覆盖深度不低于4X的比例

Coverage_at_least_10X：全基因组区域中碱基覆盖深度不低于10X的比例

Coverage_at_least_20X：全基因组区域中碱基覆盖深度不低于20X的比例

科研与临床分析比对

http://www.biotrainee.com:8080/thread-707-1-1.html