gene ID转换(gene ID转为protein ID) pathway注释 string数据库的方法 UniProt

如果转载,请注明出处。

GSEA、David与KEGG、GO数据库的区别:

1.KEGG数据库、GO数据库是知识库。它们记录了通路、生物学过程等的信息。

2.GSEA、David是做富集分析的数据库。它们使用KEGG、GO数据库中的信息,再结合你输入的基因列表,对输入基因列表进行富集分析,给出结果(比如,富集到哪些通路、富集到哪些生物学过程)。

比如,David数据库,它用fisher exact检验,计算富集的通路的pvalue,只输出p-value达到一定阀值的通路。详细过程:David数据库中有30000+个基因,每条通路的富集基因也知道。你输入的基因列表,比如200个,这200个有100富集到hippo通路。David数据库中hippo通路有150个基因。那么,这四个数做fisher检验,即得出p-value。

比如,GSEA数据库,它除了使用KEGG、GO数据库,还有自己的数据集,比如hallmark gene sets。

如果我想知道,这些基因都属于哪些通路?通常基因个数少。那么,用KEGG可以。它可以给出每个基因的通路。如果用GSEA、David,富集程度不够的通路不会显示。你也无法得知每个基因所属的通路。

如果我想知道,这些基因富集到哪些通路中?通常基因个数多。那么,用GSEA、David可以实现。

gene  symbol转换为protein ID:

参考资料:https://www.cnblogs.com/wangshicheng/p/11171058.html

工具网站:https://biodbnet-abcc.ncifcrf.gov/db/db2db.php

David数据库的详细用法说明:

https://david.ncifcrf.gov/helps/functional_annotation.html#summary

David数据库使用fisher exact test,得到一个p_value。

步骤:

1. 主页选择“Function annotation”;

2.点击Upload。粘贴基因列表。如果基因多(比如2000+),需要上传文件。文件格式为一列基因列表;

3.点击submit。(注意:先点击upload,再点击submit);

4.选择物种,点击“Select Species”;

5.在“Annotation Summary Results”页面,点击‘Pathways’,点击’Chart‘,弹出注释结果的页面;(对其它的条目,如“Gene_Ontology"也可以做同样选择,下载数据)

6.在该弹出页面,右键单击“Download file”,选择“链接另存为”。即可将注释结果的txt格式下载到本地。(曾经我在此步卡住了,╮(╯▽╰)╭)

注意:

1.David也可以设置“Background”基因列表,在其中进行注释。

GSEA的用法

1.注释

选择“Molecular Signatures Database”和“Investigate gene sets”。看到输入gene标识的输入框。

输入gene 列表,最多不超过2000个。

选择各种数据库,比如:KEGG、GO、Hallmark gene sets等。

一定记得选择物种!一定记得选择物种!Species:Human   Mouse

q_value可以设置0.1 或者0.05(默认)。

点击“Compute overlaps”即可。

2.富集 

需要下载一个.jar的包。

需要属于基因列表,以及每个基因的value值。比如,RNA-seq用cuffdiff跑完后的value值。

执行命令,即可得到曲线样子的功能富集图。

String数据库:

https://string-db.org/cgi/input.pl?sessionId=wNQljxzwVv2e&input_page_show_search=on

选择“Multiple proteins”,在右边的框中输入gene symbol,选择物种(小鼠:Mus Musculus;人:Homo species)。点击“search”。

进入新的页面后,点击“continue”。看到生成的蛋白互作图。

可以看到该图的Legend,还可以导出该图。

UniProt数据库:

1. 问题:在UniProt数据库查询某物种某个基因(比如,mouse,TP53)的protein ID时,经常有多个protein ID出现。

 原因:查看每个protein ID的“status”,发现有Reviewed和Unreviewed两种状态。如果筛选“Reviewed”,则只有一个protein ID出现。Unreviewed protein 有很多。

 继续提问:为何有UniProt会有这两种类型的protein ID呢?

 原因:UniProtKB有两部分。UniProt数据库中手工挖掘的、且经过管理员review过的记录,属于UniProtKB/Swiss-Prot部分(Reviewed);计算机注释和挖掘的部分,属于UniProtKB/TrEMBL部分(Unreviewed)。

    一个gene在UniProt中会有多个Reviewed protein ID。比如,基因Hibadh有三个protein ID:Q99L13A0ZNJ2Q8BJY2。其中,第一、三个是Reviewed状态;第二个是Unreviewed。(KEGG中只有输入Q99L13时,才能被检索到,并注释到通路中。输入第三个时,在KEGG中注释不到)

    参考资料:https://www.uniprot.org/help/uniprotkb_sections  https://www.uniprot.org/help/entry_status

 关联问题:为何将“蛋白鉴定表”的Protein ID列的部分Protein ID输入KEGG注释,与全部Protein ID输入KEGG注释的结果不同呢?

 原因:KEGG对每个基因只有一个protein ID,即UniProt数据库中reviewed的protein ID。如果在KEGG中输入Unreviewed protein ID,KEGG不会搜索到该ID,也无法给出该ID的注释。

bioDBnet: db2db ID转换时,给出的结果不全。

比如:sept7只给出了7个结果。而蛋白鉴定表中有10Protein ID

原文地址:https://www.cnblogs.com/zypiner/p/11702730.html