A Spiking Neural Model for Stable Reinforcement of Synapses Based on Multiple Distal Rewards

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Neural Computation, no. 1 (2013): 123-156

Abstract

　　在这篇文章中，开发了一种新颖的类似critic的算法来扩展Florian (2007)和Izhikevich (2007)中描述的突触可塑性规则，以解决同时学习多个远端奖励的问题。该系统增加了短期可塑性(STP)以稳定学习动态，从而提高系统的学习能力。估计该系统可以学习的远端奖励数量的理论阈值。通过计算机模拟验证了新算法的有效性。

1 Introduction

　　强化学习是一种试错学习的方法，其中智能体的行为由一类称为奖励的信号引导。强化学习模型内置于智能体和系统中，可以从它们与环境的交互中学习。强化模型优于监督学习模型(Rumelhart & McClelland, 1987)，因为它们不需要监督者向智能体提供实时反馈。强化学习期间的奖励来自环境，为智能体提供价值感，以指导智能体与环境交互期间的学习。通常，奖励出现在与其对应的提示和动作之后，被称为远端奖励问题(Hull, 1943; Izhikevich, 2007)；在强化学习界中，它被称为信度分配问题(Sutton & Barto, 1998)。设计此类系统的最终目标是生产自主且自编程的系统，以灵活可靠的方式实现其目标。

　　大多数对强化学习建模的计算方法都集中在TD算法上(Sutton & Barto, 1998; Hazy, Frank, & O'Reilly, 2010)，该算法使用时间折扣的显式说明来计算期望奖励(Sutton & Barto, 1998)。在这篇文章中，重点是开发一种生物学合理的方法来使用脉冲神经模型对远端奖励问题进行建模。这是因为大脑中神经元之间的主要通信模式是以脉冲、动作电位或脉冲的形式编码的。这种交流模式使由数十亿个神经细胞组成的大脑能够消耗不到20 Wof的能量(Lennie, 2003; Attwell & Laughlin, 2001)。

　　神经元是通过突触相互连接的复杂结构。这些突触可以使用经过实验验证的学习规则，脉冲时间依赖性可塑性(STDP)，根据突触前神经元和突触后神经元之间脉冲的相对时间来修改它们的增益(Markram, Lübke, Frotscher, & Sakmann, 1997; Bi & Poo, 1998; Magee & Johnston, 1997; Levy and Steward, 1983; Debanne, Gähwiler, & Thompson, 1998; Dan & Poo, 2004)。

　　哺乳动物大脑中的奖励信号与多巴胺系统有关(Schultz & Romo, 1990; Ljungberg, Apicella, & Schultz, 1991)。Izhikevich (2007)和Florian (2007)开发了一种将STDP和多巴胺信号联系起来的模型，称为奖励调节STDP (R-STDP)。在R-STDP中，突触由STDP进化并由多巴胺等全局奖励信号调节。尽管R-STDP取得了成功，但Frémaux, Sprekeler和Gerstner (2010)证明R-STDP无法同时学习多个强化任务。在这篇文章中，R-STDP被扩展以解决同时学习多个远端奖励的问题。

2 Distal Reward Problem

　　在巴甫洛夫条件反射实验中，智能体学会将某些线索与奖励或惩罚联系起来。这是强化学习，因为学习来自于根据提示进行的奖励(或惩罚)。在脉冲神经网络的上下文中，与奖励或惩罚相关的脉冲序列在此称为r-模式。此外，奖励项将用于表示奖励或惩罚，因为两者都可以用于强化学习。继续使用这个项，在巴甫洛夫学习中，奖励比r-模式滞后几秒，但奖励仍然产生有效的学习(Pavlov, 1927; Hull, 1943; Houk, Davis, & Beiser, 1995; Schultz, 1998; Dayan & Abbott, 2001)。r-模式和奖励之间的延迟正是强化学习成为如此强大工具的原因：它允许对智能体-环境交互进行事后评估，然后智能体可以将其纳入行为修改中。然而，这种延迟也带来了棘手的问题。由于奖励滞后于r-模式，当奖励可用于帮助学习时，r-模式不再存在，这在脉冲神经网络中采用突触强度修改的形式。

　　第二个观察结果是，在r-模式和系统获取奖励之间的延迟期间，网络的其余部分继续飙升。因此，如果奖励真的是为了增强r-模式，使其更有可能在未来出现，那么奖励如何挑选出引起奖励的特定脉冲模式？例如，考虑让狗坐下的情况。假设然后狗执行两个几乎同时的动作，例如摇头和坐下。然后给狗一个坐下的款待。然而，狗怎么"知道"坐下的动作是有奖励的，而不是摇头的动作？当然，关键在于重复，但这在宏观或行为层面上。在细胞水平上看到相应的相关性很有趣。这种在网络中的其他脉冲模式上强化特定r-模式的问题称为远端奖励问题(Hull, 1943)或信度分配问题(Minsky, 1961; Barto, Sutton, & Anderson, 1983; Houk et al., 1995; Sutton & Barto, 1998; Dayan & Abbott, 2001; Wörgötter & Porr, 2005)。

　　如第1节所述，Florian (2007)和Izhikevich (2007)在脉冲神经网络的背景下，使用奖励调节STDP (R-STDP)解决了单个r-模式的远端奖励问题。在这篇文章中，对RSTDP进行了扩展，使脉冲神经网络能够学习多个r-模式。

3 Methods

　　第3节描述了这篇文章中使用的所有模型。第3.1节定义了神经元模型，第3.2节定义了STDP可塑性规则，第3.3节定义了R-STDP，它扩展了STDP以用于强化学习。在第3.4节中，开发了一个新的学习规则，称为ARG-STDP，它改进了强化模型，能够学习多个远端奖励。第3.5节指定了用于稳定网络动态的STP模型。

3.1 Neuron Model.

3.2 STDP.

3.3 Reward-Modulated STDP.

3.4 R-STDP with Attenuated Reward Gating.

3.5 Short-Term Plasticity.

4 Single-Synapse Reinforcement Experiment

5 Generalization to Multiple Synapse Learning

5.1 R-STDP with STP Can Learn Multiple r-Patterns.

5.2 ARG-STDP Can Learn Multiple r-Patterns.

5.3 STP Stabilizes ARG-STDP Network Learning Dynamics.

6 Properties of ARG-STDP with STP

6.1 Reward Predictive Properties of r-Patterns.

6.2 Learning Robustness to Reward Release Probability.

6.3 Learning Robustness to Reward Ordering.

6.4 Network Scaling.

6.5 The Reward Scheduling Problem.

6.6 Firing Rate Affects Learning Capacity.

6.7 Eligibility Trace Time Constant Affects Learning Capacity.

6.8 Interval Learning.

7 Discussion

8 Conclusion

Appendix A: Defining the Correlation Metric

Appendix B: Computing the Decaying Eligibility Trace