VarGen: An R package for disease-associated variant discovery and annotation VarGen:用于疾病相关变异发现和注释的R包

VarGen: An R package for disease-associated variant discovery and annotation

VarGen:用于疾病相关变异发现和注释的R包

摘要
简介:
在过去的十年中，公共数据库中与疾病相关的基因组数据的数量呈指数级增长。
然而，这些高质量的信息分散在独立的信息源中，研究人员通常需要分别访问这些信息。

因此，越来越需要以简单和自动化的方式收集和编译这些信息的工具。

这里我们展示了“VarGen”，一个易于使用的、可定制的R包，它使用一个公共数据库集合(即OMIM、FANTOM5、GTEx和GWAS目录)获取、注释和排序与疾病和遗传疾病相关的变体。

这个包还能够对这些变量进行注释，以识别最具影响力的变量。
我们期望这一工具将有利于变异-疾病关系的研究。
可用性和实现:
VarGen是开源的，可以通过GitHub免费获得:
https://github.com/MCorentin/VarGen。

该软件以R包的形式实现，在Linux、MacOS和Windows上都得到支持。
补充信息:补充数据可在生物信息学在线获得

1介绍
复杂的遗传疾病往往是由大量低影响变异的积累而不是单一缺陷基因造成的。

随着糖尿病和肥胖症等复杂非传染性疾病的流行，以及测序技术和基因分型的最新进展，现在有可能全面了解这些疾病背后的遗传学。
此外,已经有一个指数增加高质量的信息在公共数据库中,
例如，当前构建的dbSNP包含超过6.6亿人的RefSNP集群(Sherry et al. 2001)。
不幸的是，有用的信息往往分散在不同的独立来源之间，如在线孟氏遗传(OMIM)、哺乳动物基因组5的功能注释(FANTOM5)、基因型组织表达(GTEx)和全基因组关联研究(GWAS)。

这些数据库中的每一个都提供了关于变异对疾病影响的有用和补充信息，但必须单独访问，而且有时不是基于同一版本的人类基因组。

一些先前整合snp相关知识的尝试已经存在。
(Cao等人2017;费列罗2018;但这些常常缺乏完整性和/或所需的灵敏度。

这里我们介绍VarGen，一个易于使用的R软件包，用于疾病相关变异的发现和注释，基于从不同互补的高质量数据库集成的信息。