Solving the Distal Reward Problem through Linkage of STDP and Dopamine Signaling

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract

　　在巴甫洛夫式和工具性条件下，奖励通常是在奖励触发动作几秒钟后产生的，从而产生了一个被称为“远端奖励问题”的解释难题：如果1）奖励到达时不再存在这些模式，并且2）在等待奖励的所有神经元和突触都处于活跃状态，大脑如何知道大脑中哪些神经元负责奖励？在这里，我们展示了如何通过具有由多巴胺（DA）调节的脉冲时间依赖可塑性（STDP）的皮质脉冲神经元模型网络来解决难题。尽管STDP是在毫秒的时间尺度上由几乎重合的发放模式触发的，但随后的突触可塑性的缓慢动态在几秒钟的关键时间内对细胞外DA浓度的变化敏感。在等待期间随机获得奖励不会影响STDP，因此不会使网络对正在进行的活动不敏感——这项关键功能将我们的方法与以前的理论研究区分开来，后者隐含地假设网络在等待期间是安静的，或者这些模式将保留下来，直到获得奖励为止。这项研究强调了精确发放模式在大脑动态中的重要性，并提出了以细胞外DA形式出现的整体扩散性强化信号如何在正确的时间选择性地影响正确的突触。

Keywords: classical conditioning, dopamine, instrumental conditioning, reward, simulation, spike-timing-dependent plasticity (STDP)