Learning in Spiking Neural Networks by Reinforcement of Stochastic Synaptic Transmission

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Summary

　　众所周知，化学突触传递是不可靠的过程，但是这种不可靠的函数仍然不清楚。在这里，我考虑这样一个假设，即大脑利用突触传递的随机性来进行学习，这类似于达尔文进化论中的基因突变。如果突触是“享乐主义的”，则可能发生这种情况，通过增加它们的囊泡释放或失败的概率来响应全局奖励信号，这取决于立即采取哪种动作。享乐主义突触通过计算对平均奖励梯度的随机近似来学习。它们与突触动态（例如短期促进和抑制）以及树突整合和动作电位生成的复杂性兼容。可以训练突触网络以通过奖励适当地执行所需的计算，如此处通过IF模型神经元的数值模拟所示。

Introduction

　　许多类型的学习可以被视为优化。例如，操作性条件可以被视为动物适应其动作以最大化奖励的过程。“实践使之完美”的格言是指反复提高复杂的动作技能，例如弹钢琴或打网球。人们普遍认为，学习至少部分基于大脑突触组织的可塑性。因此，似乎存在为优化神经回路函数而量身定制的突触可塑性类型。

　　这种突触可塑性可以采取什么具体形式？为了激发想像力，从进化中汲取灵感是很有帮助的，进化是生物学优化过程的最著名例子。进化的一个令人着迷的方面是，它需要不完美的基因复制。这种不可靠性可能在其他方面似乎是不可取的，但是随机突变和重组对于产生变异实际上是必不可少的，变异允许进化以寻找改良的基因型。

Results

Training a Multilayer Network

Release-Failure Antagonism

The Matching Law

Dynamic Synapses

Postsynaptic Voltage Dependence

Postsynaptic Locus of Plasticity

Temporal Antagonism

Discussion

Hedonistic synapses are just a mechanism