Learning in Spiking Neural Networks by Reinforcement of Stochastic Synaptic Transmission

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

Summary

  众所周知,化学突触传递是不可靠的过程,但是这种不可靠的函数仍然不清楚。在这里,我考虑这样一个假设,即大脑利用突触传递的随机性来进行学习,这类似于达尔文进化论中的基因突变。如果突触是“享乐主义的”,则可能发生这种情况,通过增加它们的囊泡释放或失败的概率来响应全局奖励信号,这取决于立即采取哪种动作。享乐主义突触通过计算对平均奖励梯度的随机近似来学习。它们与突触动态(例如短期促进和抑制)以及树突整合和动作电位生成的复杂性兼容。可以训练突触网络以通过奖励适当地执行所需的计算,如此处通过IF模型神经元的数值模拟所示。

Introduction

  许多类型的学习可以被视为优化。例如,操作性条件可以被视为动物适应其动作以最大化奖励的过程。“实践使之完美”的格言是指反复提高复杂的动作技能,例如弹钢琴或打网球。人们普遍认为,学习至少部分基于大脑突触组织的可塑性。因此,似乎存在为优化神经回路函数而量身定制的突触可塑性类型。

  这种突触可塑性可以采取什么具体形式?为了激发想像力,从进化中汲取灵感是很有帮助的,进化是生物学优化过程的最著名例子。进化的一个令人着迷的方面是,它需要不完美的基因复制。这种不可靠性可能在其他方面似乎是不可取的,但是随机突变和重组对于产生变异实际上是必不可少的,变异允许进化以寻找改良的基因型。

Results

Training a Multilayer Network

Release-Failure Antagonism

The Matching Law

Dynamic Synapses

Postsynaptic Voltage Dependence

Postsynaptic Locus of Plasticity

Temporal Antagonism

Discussion

Hedonistic synapses are just a mechanism

原文地址:https://www.cnblogs.com/lucifer1997/p/13332750.html