利用KEGG的API获取基因对应的pathway 信息

KEGG 官网提供了API, 可以方便的访问KEGG 数据库中的内容,链接如下:

http://www.kegg.jp/kegg/rest/keggapi.html

利用API可以得到某一个基因参与的pathway 信息, 以human 为例;

1) 第一步,获取每条pathway具体的描述信息

对应的API为 : http://rest.kegg.jp/list/pathway/hsa

内容如下:

可以看到,返回的内容一共两列,第一列为物种对应的pathway, 第二列为该pathway 对应的描述信息;

2)第二步, 获取物种对应的基因信息

对应的API 为:http://rest.kegg.jp/list/hsa

内容如下:

可以看到,第一列为基因在KEGG数据库中的ID, 第二列为该基因的具体信息,其中RefSeq 字段之后的内容为该基因的名字,比如 hsa:222029 对应的gene symbol 为DKFzp434L92

如果这个基因在Refseq 之后的内容有逗号分隔的多个内容,取第一个作为其gene symbol

以hsa:101954268为例,对应的gene symbol 为 RNVu1-20

通过以上方法获得的gene symbol 和NCBI的GENE 数据库中的基因名是一致的

3) 第三步, 获取基因和pathway 之间的对应的关系

对应的API 为:http://rest.kegg.jp/link/pathway/hsa

内容如下:

可以看出,第一列为KEGG数据库中的ID, 第二列为该基因参与的pathway的ID; 

通过上述的三个内容,就可以得到基因参与的pathway信息

我写了一个perl脚本,自动的下载对应对应的信息,最终输出的结果如下所示:

hsa:393046      OR2A5   path:hsa04740 Olfactory transduction - Homo sapiens (human)

第一列为基因在KEGG数据库中的ID, 第二列为基因的名字,第三列该基因参与的pathway, 如果有多条pathway的话,用 | 分隔

原文地址:https://www.cnblogs.com/xudongliang/p/6845818.html