TCGA学习篇——数据下载

下载TCGA的方法比较多,这里采用GDC下载数据。

步骤一:进入官网:https://portal.gdc.cancer.gov/

    

步骤二:点击Repository

    

第三步:点击Files或Case

  Case主要包括:Primary site(肿瘤起始位置,原位癌)、Program(数据来源)、Project()、Disease Type(疾病类型)、Gender(性别)、Age At Diagnosis(诊断年龄)等等筛选条件。

  Files主要包括:Data Category(测序reads、拷贝数变异、DNA甲基化和临床信息等)、Data Type(比对reads、原始体细胞突变数据、体细胞突变注释等数据)、Experimental Strategy(实验策略)、Workflow Type、Data Format、Platform等

  根据自己需要选好数据,一般下载的数据包括:临床信息、RNA表达或DNA甲基化数据等、(一般Case选好后不用动,只需要在Files里面进行相关数据的选择进行下载)

  

第四步:数据选好后,点击Manifest进行下载

           

第五步:在下载好的数据里面进行所需数据的提取和整理,这需要在Linux里面进行相关处理,这时主要看各位对对文本处理的功底了。

第四步

原文地址:https://www.cnblogs.com/fangfang66/p/10770134.html