研究多个基因间相互作用的频域方法

课题名称:研究多个基因间相互作用的频域方法
--------------------------------------------------------------------------------
1.    课题的目的和意义

人类为了了解在分子水平上生物组织的功能,迫切地想知道基因表达的具体过程和内在机理。事实上,这是当今生物信息学中一个热门且具有挑战性的研究领域。基因表达是一个非常复杂的过程,通常表现为由DNA,RNA, 蛋白质和小分子组成的网络之间复杂地相互作用。这些作用可能包括:DNA的转录;RNA的生成、转移和翻译;翻译后蛋白质的修正;蛋白质和RNA的降解;蛋白质的再生成等等。随着近来一些实验技术的发展,比如生物芯片(microarray)、MEA(multi-electrode array)、LFP(local field recording)等技术,我们已经可以得到反映多个基因在一段时间内表达水平的数据。尽管通过研究基因序列的大量数据,大量基因及它们的调控位置已经找到,并且许多在基因表达过程中起控制作用的蛋白质也已经找到,但关于调控系统中基因的功能及基因之间复杂的相互作用却知道得很少。要从这些复杂的相互关系中来研究生物组织的复杂模式的出现,仅通过实验的方法不仅要耗掉大量的资源,而且由于大部分基因调控系统会有大量基因的参与,这些基因之间会产生交错的正负反馈环,使得很难对整个系统有直观的理解。

于是,通过数学的方法来研究基因表达的系统就显得非常重要了,它既要切合现有的实验条件,又要能较准确地反应所研究的各基因间的真实关系。在对基因间相互作用知之甚少的情况下,我们自然首先关心:① 这些不同的基因之间是否存在一定的作用关系;② 这样的关系到底是怎样的,即一个(或多个)基因决定另外一个(或多个)基因,还是恰好相反,甚至是所有的基因都相互作用。

2.    课题研究状况

从来自基因表达的实验等数据中,直接建立基因调控的网络模型来研究基因与基因之间的相互作用目前在国内外已经有很多研究成果,[1][2]比如:有向图,布尔网络,微分方程,随机控制等。但这些模型或多或少都有明显的不足之处。比如:模型较为粗糙,不能反映一些重要的生物学机理;自身局限性较大;模型的参数辨式较困难;计算求解过于复杂等。而且从模型来考虑系统的状态是依赖于模型本身的。

另一种角度是直接研究基因表达的时间序列之间的相互作用。[2][3]这一方面广泛使用的方法有:贝叶斯网络、Granger因果检验(Granger causality)等。贝叶斯网络的一个重大局限性在于不能反映基因表达中的一些循环性的关系(比如反馈);Granger因果检验本身是针对双变量的时间序列的,已被Geweke推广为多变量时间序列下的条件Granger因果检验(conditional Granger causality)。

然而,要使得条件Granger因果检验足够有效,就必须记录到系统中所有相关的变量—这在目前的实验技术下是不可能做到的。外部环境的外因输入(exogenous inputs)和未被测量的潜在变量(latent variables)都会改变所记录基因间的相互作用。[4]例如:从绵羊IT(inferotemporal)皮层获得的实验数据中,每个被测的神经元都受到了来自视觉皮层的输入和前额叶皮层的反馈;即使是目前最好的MEA技术,也只能记录所有相互作用神经元中的很少一部分,所以几乎可以断定存在未被测量的潜在变量。

有鉴于此,Jianfeng Feng等人最近提出了一种所谓partial Granger causality(PGC)的方法来解决上述困难。[3][4][5]这种方法借鉴了统计学中偏相关的概念,推广了条件Granger因果检验,能够较好地消除上述的外因输入和潜在变量对所研究数据的影响,并在具体的实验数据分析(主要是用了频域上的PGC)中取得了不错的效果。[6]另外由于Geweke已经把Granger检验的概念从时域推广到了频域,所以PGC也能通过谱分解、Fourier变换等手段平行地推广到频域,而在频域中讨论基因表达作用是有一定优越性的(这种优越性体现在一些数值实验中的结果中)。

然而,目前的PGC方法(无论是时域还是频域)每次只能研究一个基因对另一个基因的影响。然而在具体实验中[7][8]却有不少这样的例子:多个基因对一个基因有不可忽略的影响,但其中每一个对后者的影响都非常的小(甚至也许会在PGC下会被认为没有影响)。这是目前频域上的PGC方法的一个弱点。这样一来,自然地想到应当推广或改进PGC,使其能够发掘出上述情况下的基因表达情况。

参考文献:

[1] Hidde De Jong, Modeling and Simulation of Genetic Regulatory Systems: A Literature Review. JOURNAL OF COMPUTATIONAL BIOLOGY, Volum 9, Number 1, 2002, Mary Ann Liebert, Inc. Pp. 67-103.

[2] M. Bansal, V. Belcastro, A. Impiombato, D Bernardo, How to infer gene networks from expression profiles. Molecular Systems Biology 3; Article number 78.

[3] S. Guo, J. Wu, M. Ding, J. Feng, Uncovering Interactions in the Frequency Domain, PLOS COMPUTATIONAL BIOLOGY, May 2008, Volume 4, Issue 5.

[4] Partial Granger Causality-Eliminating Exogenous Inputs and Latent Variables, Supplemental Material I of [3].

[5] A Simple Example, Supplemental Material II of [3].

[6] J. Feng, D. Yi, R. Krishna, S. Guo, V. Wollaston, Listening to Genes: Dealing With Microarray Data in Frequency Domains, March 13, 2008.

[7] Ueda H. (2006), Systems biology flowering in the plant clock field, Molecular Systems Biology, 2, 60.

[8] Ueda H., Hagiwara M., Kitano H. 2001. Robust oscillations within the interlocked feedback model of Drosophila circadian rhythm. J. Theor. Biol. 210, 401-406.

[9] Granger C. Investigating Causal Relations by Econometric Models and Cross-spectral Methods. Econometrica, 1969;37: 424-38.

[10] Geweke J. Measures of Conditional Linear Dependence and Feedback Between Time Series. Journal of the American Statistical Association, 1984;79: 907-15.

[11] Androulakis P., Yang E., Almon R. (2007), Analysis of Time-Series Gene Expression Date: Methods, Challenges, and Opportunities, Annual Review of Biomedical Engineering,9,205-228

[12] George E.P.Box,Gwilym M.Jenkins,Gregory C.Reinsel,《时间序列分析——预测与控制》,中国统计出版社,1997年9月

3.      课题主要内容与基本思路,难点和创新点

本课题拟通过对目前频域上的PGC方法(包括有关Granger causality,conditional Granger causality等的原始文献)的学习研究,深刻理解PGC方法的意义,找到它的核心部分,特别是其通过什么来刻画exogenous inputs 和 latent variables 对所研究的基因的影响。在此基础上,试图将其推广成多对一、一对多、甚至多对多的情形,给出推广的方法(当然推广方法也许会吸收频域上的其他方法的可取之处)。然后通过一定的数据验证所给方法的合理性。如不符合实验结果,则作进一步修正;若符合,则将该方法应用于更多的实验数据。如果可能的话,可再研究一下改进后的方法如何更好地配合整个基因表达的数据处理过程(包括前面的正规化、聚类等)。

创新点:PGC是今年才提出的一个新方法,理论和实验上已初步体现出一定的优越性。如能做进一步的推广,将使该方法在实际的数据处理中更加有效。

难点:

推广PGC应该不是件容易的事情,首先要吃透PGC方法,推广过程中也许还要借鉴一些频域上已有的别的方法。

结合实验数据的改进工作会多次反复。

本课题需要时间序列分析、概率统计、Fourier变换等预备知识,而这些本人仅是初步了解,需要在结合研究进一步学习。

4. 课题预期成果

分析出频域上PGC方法的意义,试作一些改进,将其推广成多对一、一对多、甚至多对多的情形,并给出推广的方法,再通过一定量的实验数据验证其合理性。将研究结果写成论文发表。

http://hi.baidu.com/carrot_hy/blog/item/17b106a3302322934710649b.html

http://www.fdurop.fudan.edu.cn/projDISP.php?dt=1&k=1292

原文地址:https://www.cnblogs.com/emanlee/p/2288146.html