文献复现 | Machine Learning on Human Muscle Transcriptomic Data for Biomarker Discovery and TissueSpecific Drug Target Identification

原始论文：Machine Learning on Human Muscle Transcriptomic Data for Biomarker Discovery and Tissue-Specific Drug Target Identification

基本常识：

什么是biomarker？What are Biomarkers?
这几种模型的区别：ElasticNet, Support Vector Machines, k-Nearest Neighbors, Random Forests 和 feed-forward neural networks
grid search of the hyperparameter space是用来干什么的？
five-fold cross validation是用来干什么的？
不同模型的优劣用什么来评估？ROC和AUC分别是什么？
重要特征分析 Feature Importance Analysis是什么？
Signaling Pathway Analysis

计时，看看要花多久。

Day1：20:15 - 21:59，1个半小时

下载GSE芯片CEL数据：

12 datasets【一个文献算一个数据集】

GSE1428 (Giresi et al., 2005)
GSE25941 (Raue et al., 2012)
GSE28392 (Raue et al., 2012)
GSE28422 (Raue et al., 2012)
GSE38718 (Liu et al., 2013)
GSE40645 (Gheorghe et al., 2014)
GSE47881 (Phillips et al., 2013)
GSE47969 (Sood, 2015)
GSE59880 (Timmons et al., 2010; Keller et al., 2011; Sood, 2015)
GSE80 (Welle et al., 2002)

Affymetrix Expression Array Intensity files (.cel)

下载GTEx数据集：

https://www.gtexportal.org/home/datasets

主要下载count matrix以及四个样本的注释文件。

因为没有处理过CEL格式的芯片数据，需要先看看教程：芯片数据分析，so easy?

批量解压tar文件【没法直接全部解压】解压需要花点时间

ls *.tar | xargs -n1 tar xvf

# 解压到各自目录里，查看文件个数
for i in `ls *.tar`
do
mkdir ./${i/.tar//}
tar xvf $i -C ${i/.tar//}
done

# 计数确认文件数量
ls *_RAW/*CEL.gz | cut -f1 -d/ | uniq -c

其中GSE40645_RAW的文件不是CEL格式的，需要注意一下。　　

CEL文件转表达矩阵【可以直接用R函数读取矩阵和样本注释信息】

构建软链接

ln -s ../*/*CEL.gz ./

R函数代码

library(GEOquery)

gset <- getGEO("GSE40645", GSEMatrix =TRUE, AnnotGPL=TRUE )

# show(gset)

exprSet <- exprs(gset[[1]])

exprSet[1:5,1:5]

pData <- pData(gset[[1]])

head(pData)

Day2：

待续~

参考：