gene ID转换（gene ID转为protein ID） pathway注释 string数据库的方法 UniProt

如果转载，请注明出处。

GSEA、David与KEGG、GO数据库的区别：

1.KEGG数据库、GO数据库是知识库。它们记录了通路、生物学过程等的信息。

2.GSEA、David是做富集分析的数据库。它们使用KEGG、GO数据库中的信息，再结合你输入的基因列表，对输入基因列表进行富集分析，给出结果（比如，富集到哪些通路、富集到哪些生物学过程）。

比如，David数据库，它用fisher exact检验，计算富集的通路的pvalue，只输出p-value达到一定阀值的通路。详细过程：David数据库中有30000+个基因，每条通路的富集基因也知道。你输入的基因列表，比如200个，这200个有100富集到hippo通路。David数据库中hippo通路有150个基因。那么，这四个数做fisher检验，即得出p-value。

比如，GSEA数据库，它除了使用KEGG、GO数据库，还有自己的数据集，比如hallmark gene sets。

如果我想知道，这些基因都属于哪些通路？通常基因个数少。那么，用KEGG可以。它可以给出每个基因的通路。如果用GSEA、David，富集程度不够的通路不会显示。你也无法得知每个基因所属的通路。

如果我想知道，这些基因富集到哪些通路中？通常基因个数多。那么，用GSEA、David可以实现。

gene symbol转换为protein ID：

参考资料：https://www.cnblogs.com/wangshicheng/p/11171058.html

工具网站：https://biodbnet-abcc.ncifcrf.gov/db/db2db.php

David数据库的详细用法说明：

https://david.ncifcrf.gov/helps/functional_annotation.html#summary

David数据库使用fisher exact test，得到一个p_value。

步骤：

1. 主页选择“Function annotation”；

2.点击Upload。粘贴基因列表。如果基因多（比如2000+），需要上传文件。文件格式为一列基因列表；

3.点击submit。（注意：先点击upload，再点击submit）；

4.选择物种，点击“Select Species”；

5.在“Annotation Summary Results”页面，点击‘Pathways’，点击’Chart‘，弹出注释结果的页面；（对其它的条目，如“Gene_Ontology"也可以做同样选择，下载数据）

6.在该弹出页面，右键单击“Download file”，选择“链接另存为”。即可将注释结果的txt格式下载到本地。（曾经我在此步卡住了，╮(╯▽╰)╭）

注意：

1.David也可以设置“Background”基因列表，在其中进行注释。

GSEA的用法

1.注释

选择“Molecular Signatures Database”和“Investigate gene sets”。看到输入gene标识的输入框。

输入gene 列表，最多不超过2000个。

选择各种数据库，比如：KEGG、GO、Hallmark gene sets等。

一定记得选择物种！一定记得选择物种！Species：Human Mouse

q_value可以设置0.1 或者0.05（默认）。

点击“Compute overlaps”即可。

2.富集

需要下载一个.jar的包。

需要属于基因列表，以及每个基因的value值。比如，RNA-seq用cuffdiff跑完后的value值。

执行命令，即可得到曲线样子的功能富集图。

String数据库：

https://string-db.org/cgi/input.pl?sessionId=wNQljxzwVv2e&input_page_show_search=on

选择“Multiple proteins”，在右边的框中输入gene symbol，选择物种（小鼠：Mus Musculus；人：Homo species）。点击“search”。

进入新的页面后，点击“continue”。看到生成的蛋白互作图。

可以看到该图的Legend，还可以导出该图。

UniProt数据库：

1. 问题：在UniProt数据库查询某物种某个基因（比如，mouse，TP53）的protein ID时，经常有多个protein ID出现。

　原因：查看每个protein ID的“status”，发现有Reviewed和Unreviewed两种状态。如果筛选“Reviewed”，则只有一个protein ID出现。Unreviewed protein 有很多。

　继续提问：为何有UniProt会有这两种类型的protein ID呢？

　原因：UniProtKB有两部分。UniProt数据库中手工挖掘的、且经过管理员review过的记录，属于UniProtKB/Swiss-Prot部分（Reviewed）；计算机注释和挖掘的部分，属于UniProtKB/TrEMBL部分（Unreviewed）。

　　　　一个gene在UniProt中会有多个Reviewed protein ID。比如，基因Hibadh有三个protein ID：Q99L13，A0ZNJ2，Q8BJY2。其中，第一、三个是Reviewed状态；第二个是Unreviewed。（KEGG中只有输入Q99L13时，才能被检索到，并注释到通路中。输入第三个时，在KEGG中注释不到）

　　　　参考资料：https://www.uniprot.org/help/uniprotkb_sections　　https://www.uniprot.org/help/entry_status

　关联问题：为何将“蛋白鉴定表”的Protein ID列的部分Protein ID输入KEGG注释，与全部Protein ID输入KEGG注释的结果不同呢？

　原因：KEGG对每个基因只有一个protein ID，即UniProt数据库中reviewed的protein ID。如果在KEGG中输入Unreviewed protein ID，KEGG不会搜索到该ID，也无法给出该ID的注释。

bioDBnet: db2db ID转换时，给出的结果不全。

比如：sept7只给出了7个结果。而蛋白鉴定表中有10个Protein ID。