Unsupervised Learning of Visual Features through Spike Timing Dependent Plasticity

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

PLoS Computational Biology, no. 2 (2007): e31-e31

Abstract

  脉冲时序依赖可塑性(STDP)是一种学习规则,它根据突触前和突触后脉冲的相对时间来修改突触强度。当一个神经元重复出现类似的输入时,众所周知,STDP具有将高突触权重集中在系统性早期激活的传入神经上的效果,而突触后脉冲延迟会降低。在此,我们在模拟腹侧视觉通路的异步前馈脉冲神经网络中使用此学习规则,并表明当网络呈现自然图像时,会出现对中级复杂性视觉特征的选择性。这些特征对应于图像中显著且始终存在的原型模式,具有很高的信息量,并且能够实现强大的对象识别,正如在各种分类任务中所证明的那样。总之,这些结果表明时间代码可能是理解视觉系统所达到的惊人处理速度的关键,并且STDP可以导致快速和选择性的响应。

Author Summary

  该论文描述了一种新的生物学合理的机制,用于使用无监督学习方案生成中级视觉表征。然后可以非常有效地使用这些表征来执行使用自然图像的分类任务。虽然该系统的基本层次结构与许多其他最近的提议非常相似,但关键的区别在于所使用的描述级别——单个神经元和脉冲——以及所涉及的编码方案的种类。从本质上讲,我们已经发现,将最强烈激活的神经元首先发放与脉冲时序依赖可塑性的时间编码方案相结合,会导致高阶视觉区域中的神经元逐渐对频繁出现的特征组合具有选择性。与此同时,它们的反应也越来越迅速。我们坚信,这种机制是理解灵长类视觉系统卓越效率的关键。

Introduction

  时间限制对皮层中的物体识别模型提出了重大挑战。当两个图像同时向注视的左侧和右侧闪烁时,人类受试者可以在短短120-130毫秒内向目标动物所在的一侧进行可靠的扫视[1]。如果我们允许动眼神经系统中的运动延迟为20-30毫秒,这意味着基础视觉处理可以在100毫秒或更短的时间内完成。在猴子中,最近来自颞下皮层(IT)的记录显示,随着时间的推移,脉冲计数小至12.5毫秒(基本上产生一个带有1或0的二值向量),并且在刺激开始后仅约100毫秒包含关于视觉刺激本质的非常准确的信息[2]。这种快速处理大概取决于视觉系统以无监督的方式学习识别熟悉的视觉形式的能力。这种学习究竟是如何发生的,对理论神经科学构成了重大挑战。在此,我们探索了具有两个关键特征的简单前馈网络架构的容量。首先,当受到闪烁的视觉刺激时,系统各层中的神经元会异步激发,最强烈激活的神经元首先发放——这种机制已被证明可以有效地编码图像信息[3]。其次,系统后期的神经元实现脉冲时序依赖可塑性(STDP),众所周知,它具有将高突触权重集中在系统性早期发放的传入神经上的效果[4,5]。我们证明,当这样的分层系统反复呈现自然图像时,这些中级神经元自然会选择输入中可靠存在的模式,同时它们的延迟会降低,从而导致快速和信息丰富的响应。这个过程以完全无监督的方式发生,但我们随后证明这些中间特征能够支持分类。

  我们的网络属于前馈分层卷积网络家族,如[6-10]。准确地说,它的架构灵感来自Serre, Wolf and Poggio的对象识别模型[6],该模型本身扩展了HMAX[7],并且在处理自然图像时表现非常出色。像它们一样,为了模拟沿腹侧通路观察到的日益增加的复杂性和不变性[11,12],我们使用四层层次结构(S1–C1–S2–C2),其中简单细胞(S)从线性求和运算获得选择性,而复杂细胞(C)从非线性最大池化运算获得不变性(有关我们模型的完整描述,请参见图1和方法)。

  然而,我们的网络不仅依赖于静态非线性:它使用脉冲神经元并在时域中运行。在每个阶段,相对于刺激开始的初次脉冲时间(或者,准确地说,脉冲序列中第一个脉冲的秩(rank),我们稍后会看到)应该是"关键变量", 即包含信息并且确实由下游神经元读取和处理的变量。当呈现图像时,第一层的S1细胞,模拟V1简单细胞,检测具有四个首选方向的边缘,细胞被激活得越强烈,它就越早发放。这种强度-延迟转换与V1中的记录一致,表明响应延迟随着刺激对比度[13,14]以及刺激方向和细胞首选方向之间的接近而减少[15]。通过将STDP应用于来自视网膜ON和OFF中心细胞的脉冲序列[16],已经表明这种方向选择性如何在V1中出现,因此我们从V1方向选择性细胞开始我们的模型。我们还通过一个赢家通吃的机制在S1细胞之间引入竞争来限制此阶段的脉冲数量:在给定的位置——对应于一个皮层柱——只有与最佳匹配方向相对应的脉冲才会传播(因此,在此阶段稀疏度为25%)。请注意,使用抑制性GABA中间神经元[17],k-winner-take-all机制很容易在时间域中实现。

  这些S1脉冲然后通过IF神经元的前馈网络异步传播。请注意,在这个初次脉冲时间框架内,复杂细胞的最大操作仅包括传播给定一组传入发出的第一个脉冲[18]。这可以通过具有来自组中所有神经元的突触连接的低阈值的IF神经元有效地完成。

  图像被一张一张地处理,我们将活动限制为每个神经元最多一个脉冲,即只传播初始脉冲波。在呈现新图像之前,每个神经元的电位都被重置为零。我们处理输入图像的各种缩放版本(具有相同的滤波器大小)。每个处理规模都有一个S1–C1–S2途径(图1中未显示)。这导致具有各种感受野大小的S2细胞(参见Methods)。然后C2细胞在所有位置和尺度上采用S2细胞的最大响应(即第一个脉冲),导致位置和尺度不变响应。

  本文解释了STDP如何设置C1-S2突触连接,导致中等复杂度的视觉特征,其在大脑中的等价可能是V4或IT。STDP是一种学习规则,它根据突触前和突触后脉冲之间的精确时间关系来修改神经元突触的强度:在突触后脉冲发出之前接收脉冲的兴奋性突触被增强(长时程增强),而与它相反,强度会减弱(长时程抑制)[19]。修改量取决于这两个事件之间的延迟:当突触前和突触后脉冲靠近时达到最大值,并且影响随着间隔超过几十毫秒而逐渐减少和消失[20-22]。请注意,STDP与Hebb的假设一致,因为在突触后神经元之前触发的突触前神经元是那些"参与它发放"的神经元。这里我们使用了一个简化的STDP规则,其中权重修改不依赖于突触前和突触后脉冲之间的延迟,时间窗口应该覆盖整个脉冲波(参见Methods)。我们还使用0和1作为"软边界"(参见Methods),确保突触保持兴奋。几位作者研究了STDP对泊松脉冲序列的影响[4,23]。在此,我们展示了STDP在视觉脉冲序列中最早发放传入模式方面检测统计规律的卓越能力,尽管它们具有非常高的自然图像固有的维度。

  视觉刺激按顺序呈现,产生的脉冲波传播到使用STDP的S2层。我们使用受限制的感受野(即,S2细胞仅整合来自对应于一个给定处理规模的C1图中的s x s正方形邻域的脉冲)和权重共享(即,每个原型S2细胞在视网膜图和所有尺度上重复)。从随机权重矩阵(大小为4 x s x s)开始,我们呈现第一个视觉刺激。复制的细胞都整合了脉冲序列并相互竞争。如果没有细胞达到其阈值,则什么也不会发生,我们将处理下一张图像。否则,对于每个原型,第一个达到其阈值的副本就是赢家。一个赢家通吃的机制可以防止其他复制的细胞被发放。获胜者因此发放并触发STDP规则。它的权重矩阵被更新,权重的变化在所有位置和尺度上重复。这允许系统在训练示例中的位置和大小发生变化的情况下学习模式。我们还在不同原型细胞之间使用局部抑制:当一个细胞在给定的位置和尺度上发放时,它会阻止所有其他细胞稍后以相同的尺度和发放位置的s/2 x s/2方格邻域内发放。这种竞争仅在学习阶段使用,可以防止所有细胞学习相同的模式。相反,细胞群体会自组织,每个细胞都试图学习一种独特的模式,以涵盖输入的整个可变性。

  如果刺激具有共同的视觉特征(例如,如果它们包含相似的对象就应该是这种情况),STDP过程将提取它们。也就是说,对于某些细胞,我们将观察到突触权重的收敛(通过饱和),最终接近0或接近1。在收敛过程中,突触竞争控制突触后脉冲的时间[4]。获胜的突触是那些最早的脉冲到达的突触(平均而言)[4,5],即使存在抖动和自发活动也是如此[5](尽管本文中提出的模型是完全确定性的)。这种对最早脉冲的"偏好"是一个关键点,因为在我们的框架中对应于图像最显著区域的最早脉冲已被证明是最有用的[3]。在学习过程中,突触后脉冲延迟减少[4,5,24]。收敛后,响应变得有选择性(就延迟而言)[5]对中等复杂性的视觉特征类似于早期工作中使用的特征[8]。现在可以将特征定义为始终是最早发放的传入神经簇。STDP检测脉冲序列中的这些统计规律,并为每个不同的模式创建一个单元。

Results

  我们在两个加州理工学院数据集上评估了我们基于STDP的学习算法,一个包含人脸,而另一个是摩托车,以及一个包含背景的干扰集,所有这些都可以在http://www.vision.caltech.edu上找到(示例图片见图2)。请注意,大多数图像没有被分割。每个数据集被分成一个训练集(用于学习阶段),和一个测试集(在学习阶段没有看到,但之后用于评估新图像的性能)。这个标准的交叉验证程序允许测量系统的泛化能力,而不是学习特定的训练示例。使用的分割与Fergus, Perona and Zisserman相同[25]。所有图像都被重新缩放为300像素的高度(保留纵横比)并转换为灰度值。

  我们首先将基于无监督STDP的算法(分别)应用于人脸和摩托车训练示例,以随机顺序呈现,以构建两组10类特定C2特征。每个C2细胞都有一个首选输入,定义为边的组合(由C1细胞表示)。请注意,由于C1细胞的局部最大操作以及我们丢失了"极性"信息(即边缘的哪一侧更暗),许多灰度图像可能会导致这种边缘组合。但是,我们可以通过将权重矩阵与一组表示定向条的核进行卷积来重建一组首选图像的表征。由于我们从随机权重矩阵开始,在学习过程的开始,重建的首选刺激没有多大意义。但随着细胞学习,结构化表征出现,我们通常能够识别细胞偏好刺激的性质。图3和图4分别显示了人脸和摩托车数据集在不同学习阶段的重建。我们在10000次演示后停止了学习。

  然后我们关闭了STDP规则并测试了这些STDP得到的特征支持人脸/非人脸和摩托车/非摩托车分类的能力。这篇论文更多地关注特征提取而不是复杂的分类方法,因此我们首先使用了一个非常简单的决策规则,该规则基于每个测试图像发放的C2细胞的数量,并对其应用阈值。这种机制可以很容易地在大脑中实现。阈值设置在平衡点(即假阳性率等于漏检率时)。在表1中,我们报告了这种"simple-count"方案在接收者操作特征(ROC)下的面积和平衡点的性能率方面的良好分类结果。

  我们还评估了一个更复杂的分类方案。C2细胞的阈值应该是无限的,我们测量了它们在整合图像生成的整个脉冲序列后达到的最终电位。这个最终潜力可以看作是当前输入和存储原型之间共同的早期脉冲的数量(这与HMAX和扩展[6,7,26]形成对比,其中欧氏距离或归一化点积用于测量存储原型和当前输入之间的差异)。请注意,此电位是对比度不变的:对比度的变化将改变所有延迟,但会保留脉冲顺序。使用训练示例达到的最终电位用于训练径向基函数(RBF)分类器(参见Methods)。我们选择这个分类器是因为高斯调整单元的线性组合被假设为视觉系统中泛化的关键机制[27]。然后我们在测试集上评估RBF。从表1中可以看出,这种"potential + RBF"方案的性能更好。

  仅使用10个STDP学到的特征,我们在这两个类上达到了与Serre, Wolf and Poggio模型相媲美的性能,后者本身接近于最先进的计算机视觉系统[6]。但是,他们的系统更通用。具有更多类内可变性的类(例如,动物)似乎对我们的方法构成了问题,因为STDP过程需要大量训练示例(比如几十个)给定特征类型才能正确学习它。

  我们的方法导致提取一小组(这里是十个)高信息量的特定于类的特征。这与Serre等人的方法形成对比,后者使用了更多(通常大约一千个)特征。它们的集合更通用,适用于许多不同的类[6]。他们依靠最终分类器来"选择"诊断性特征,并为给定的分类任务适当地加权。在此,STDP自然会关注正训练集的共同点,即目标对象特征。背景通常不会被学习(至少不是优先级),因为背景几乎总是从一幅图像到另一幅图像差异太大,以至于STDP过程无法收敛。因此,我们直接提取诊断性特征,并且仅使用检测到的特征数量的阈值就可以获得相当好的分类结果。此外,由于STDP从多个示例中执行矢量量化而不是"one-shot学习",因此它不会学习噪声,也不会学习任何特定于给定示例的内容,因此它会倾向于学习原型特征。

  另一个关键点是算法学习显著区域的自然趋势,仅仅因为它们对应于最早的脉冲,结果是感受野覆盖显著区域的神经元很可能在"看着"其他区域的神经元之前达到它们的阈值(并触发STDP规则)。这与更经典的竞争学习方法形成对比,其中输入规范化有助于不同的输入模式在学习过程中同样有效[28]。请注意,"显著性"意味着在我们的网络中"具有明确定义的对比边缘",但显著性是局部差异的更通用概念,例如,强度、颜色或方向,如Itti, Koch and Niebur的模型[29]。我们可以使用其他类型的S1细胞来检测其他类型的显著性,并且,如果我们应用相同的强度-延迟转换,STDP仍将专注于最显著的区域。众所周知,显著性会引起注意(有关评论,请参见[30])。我们的模型预测它也会推动学习。未来的实验工作将检验这一预测。

  当然,在现实生活中,我们不太可能连续看到多个给定类别的示例。这就是我们进行第二次模拟的原因,其中以随机顺序向20个C2细胞呈现面部、摩托车和背景训练图片,并应用STDP规则。图5显示了此混合模拟在20000次演示后的所有重建。我们看到这20个细胞是自组织的,其中一些细胞对面部特征具有选择性,而另一些则对摩托车特征具有选择性。有趣的是,在学习过程中,细胞迅速表现出对某一类别的偏好。在达到一定程度的选择性后,面部特征学习不受摩托车呈现的影响(反之亦然),仅仅是因为面部细胞不会在摩托车上发放(并触发STDP规则)。我们再次使用RBF网络和"一对多"方法(参见Methods)通过(多)分类任务测试了这些特征的质量。和以前一样,我们测试了两种实现:一种基于"二值检测 + RBF",一种基于"potential + RBF"。请注意,简单的检测计数在这里不起作用,因为我们至少需要一些监督学习才能知道哪个特征(或特征组合)是哪个类别的诊断(或反诊断)。表2显示了在两种实现的测试集上获得的混淆矩阵,平均分别导致95.0%和97.7%的正确分类。值得一提的是,"potential + RBF"系统完美地区分了人脸和摩托车——尽管两者都出现在基于STDP的无监督学习阶段。

  运行第三种模拟来说明STDP学习过程。对于这些模拟,仅使用了三个C2细胞和四个处理规模(71%、50%、35%和25%)。我们让每个处理规模最多一个细胞发放。其余参数与其他模拟严格相同(参见Methods)。视频S1-S3分别说明了STDP学习过程,包括面孔、摩托车以及面孔、摩托车和背景图片的混合。可以看出,收敛后STDP特征在选择性(误报极少)和不变性(大部分目标被识别)之间表现出良好的折衷。

  一个有趣的控制是在这个精确的框架中将STDP学习规则与更标准的赫布规则进行比较。为此,我们将来自C1细胞的脉冲序列转换为(实值)C1活动的向量XC1,假设对应于发放率(参见Methods)。每个S2细胞不再在IF级别建模,而是应该以归一化点积给出的(静态)发放率YS2响应:

其中WS2是S2细胞的突触权重向量(参见Methods)。

  S2细胞仍然相互竞争,但k-winner-take-all机制现在选择了发放率最高的细胞(而不是第一个发放的细胞)。只有发放率达到某个阈值的细胞才被考虑在竞争中(见Methods)。获胜者现在触发了以下修改后的赫布规则(而不是STDP):

其中添加了衰减项以保持权重向量有界(但是,该规则仍然是局部的,与显式权重归一化不同)。请注意,在STDP情况下不需要这种预防措施,因为突触之间的竞争自然会限制权重向量[4]。网络的其余部分与STDP情况完全相同。

  图6显示了10000次面部刺激(图6, 顶部)和摩托车刺激(图6, 顶部)呈现后,10个C2细胞的首选刺激的重建。同样,我们通常可以识别出细胞成为选择性的面部和摩托车部分(即使重建看起来比STDP情况下更模糊,因为最终权重分级更多)。我们还测试了这些获得的赫布特征在输入RBF后支持人脸/非人脸和摩托车/非摩托车分类的能力,结果如表1(最后一列)所示。我们还使用多类设置评估了赫布特征。二十个细胞被呈现与之前相同的面部、摩托车和背景图片的混合。图7显示了20000次演示后的最终重建,表2显示了混淆矩阵(最后一列)。

  主要结论是修改后的赫布规则也能够提取相关特征进行分类(尽管这些测试的性能似乎稍差)。这并不奇怪,因为STDP可以被视为在时域中转置的赫布规则,但值得检查。STDP将检测(并创建选择性)始终在第一个发放的单位组中,而赫布规则检测(并创建选择性(始终具有最高发放率的单位组。然而,我们认为时间框架更好地描述了神经元水平上真正发生的事情,至少在超快速分类任务中是这样。此外,STDP还解释了系统如何随着训练变得越来越快,因为神经元学会解码在其传入级别上可用的第一个信息(另见Discussion)。

Discussion

  虽然分层前馈网络支持分类的能力现在已经相当成熟(例如,[6-8,10]),但如何学习中级复杂度的特征仍然是一个悬而未决的问题,尤其是对于杂乱的图像。在最初的HMAX模型中,没有学习S2特征,而是手动硬连线[7]。后来的版本使用从自然图像中获取的大量随机裁剪(比如1000个),并使用这些裁剪来"印记"S2细胞[6]。这种方法效果很好,但成本很高,因为特征之间的冗余非常高,而且许多特征与大多数(如果不是全部)任务无关。为了仅选择给定任务的相关特征,Ullman提出了一个基于互信息的有趣标准[8],留下了可能的神经实现问题。LeCun展示了如何使用反向传播以有监督的方式学习卷积网络中的视觉特征[10],但并未声称该算法在生物学上是合理的。尽管我们可能偶尔会使用监督学习来创建一组适合特定识别任务的特征,但每次我们学习一个新类时都需要这样做似乎是不现实的。在此,我们采用了另一种方法:将具有无监督竞争学习的一层用作具有监督学习的第二层的输入。请注意,已经发现这种混合方案的学习速度比两层反向传播网络快得多[28]。

  我们的方法是自下而上的:我们没有直观地了解良好的图像处理方案并讨论它们最终的神经相关性,而是采用了发生在神经元水平上的已知生物现象,即整合与发放和STDP,并观察它们可以在哪个更综合的层面上领先。因此,自然图像模拟的作用是提供"合理性证明",证明这种机制可以在大脑中实现。

  但是,我们做了四个主要的简化。第一个是一个一个地传播输入刺激。这可能对应于在超快速分类范式中闪烁图像时发生的情况[1],但正常的视觉感知是一个持续的过程。但是,我们通常每200毫秒或300毫秒执行一次扫视。这些离散"块"中的每一个的处理似乎都针对快速执行进行了优化[31],我们建议通过单个脉冲波的前馈传播可以做很多事情。此外,即使在注视时,我们的眼睛也在不断地进行微跳视,这可能会再次导致重复的激活波。这一想法与电生理记录一致,表明V1神经元活动与微眼跳相关[32]。这里我们假设连续波没有干扰,考虑到神经元时间常数(积分、泄漏、STDP窗口)在几十毫秒的范围内,而跳视和微跳视之间的间隔要长得多,这似乎并不太合理。视网膜外信号也有可能通过在传播下一波之前关闭任何剩余的活动来抑制干扰。请注意,这种简化允许我们使用非泄漏的IF神经元和无限的STDP时间窗口。更一般地,正如Hopfield [33]所提出的,波可以由群体振荡产生,这种振荡会在振荡的最大值之前一次发放一个细胞,其中振荡随着细胞接收到的输入而增加。这一想法与猫视觉皮层17区的记录一致,表明次优细胞显示出相对于最佳刺激细胞的系统相位滞后[34]。

  我们所做的第二个简化是仅使用五层(包括分类层),而腹侧流中的处理涉及更多层(可能大约十层),并且复杂性增加的速度比此处建议的要慢。然而,基于最早脉冲模式之间的统计规律,STDP作为将简单特征组合成更复杂表征的一种方式,似乎是一种非常有效的学习规则,并且可以在所有阶段参与。

  我们所做的第三个主要简化包括使用受限制的感受野和权重共享,就像大多数受生物启发的分层网络一样[6-10](使用这些技术的网络称为卷积网络)。我们通过在所有位置和尺度上复制S1、C1和S2细胞,通过结构(而不​​是通过训练)建立了移位和尺度不变性。这是通过将先验信息合并到网络设计中来减少网络的自由参数数量(以及因此减少VC维度[35])的一种方法:响应应该是尺度和位移不变的。这大大减少了所需的训练示例数量。请注意,这种权重共享技术可以应用于移位和缩放以外的其他变换,例如旋转和对称。然而,很难相信大脑真的可以使用权重共享,因为正如Földiák [36]所指出的那样,更新连接到同一个复杂单元的所有简单单元的权重是一种非局部操作。相反,他建议至少可以在局部和独立地学习低级特征。随后,具有相似偏好刺激的细胞可能会自适应地连接到相同的复杂细胞,这可能是由于跟踪规则[36]检测跨时间的相关性。Wallis、Rolls和Milward在称为Vis-Net [37,38]的多层分层网络中成功实现了这种机制;然而,从未分割的自然图像中学习对象后的性能很差[39]。未来的工作将评估在我们的网络中使用局部学习和自适应复杂池,而不是精确的权重共享。学习会慢得多,但应该会导致类似的STDP功能。请注意,猴子似乎可以在以前没有经历过的尺度和位置上识别高级物体[2,40]。可能在大脑中使用局部学习和自适应复杂池化达到一定的复杂程度,但不适用于高级对象。这些高级对象可以用更简单的特征组合来表示,这些特征已经是平移和尺度不变的。因此,对高级对象的空间特定表征的需求将减少。

  我们所做的最后一个主要简化是忽略反馈循环和自上而下的影响。虽然正常的日常视觉广泛使用反馈循环,但时间限制几乎可以肯定地将它们排除在超快速分类任务中[41]。对于不直接依赖于输入的自上而下的信号,情况并非如此。例如,有实验证据表明,在IT [42]和V4 [43]中可以增强对给定识别任务的"相关"特征的选择性,这可能要归功于来自前额叶皮层的自上而下的信号,被认为参与了分类过程。例如,这些效果由Szabo et al. [44]建模,这里不考虑。

  尽管有这四个简化,我们认为我们的模型捕获了视觉系统用于快速对象识别的两个关键机制。第一个是第一个脉冲对于快速编码关于视觉刺激的最重要信息的重要性。鉴于猴子IT [2]中记录的高级识别涉及的阶段数量和选择性反应的短延迟,每个神经元执行计算的可用时间窗口可能约为10-20毫秒[45],并且很少包含超过一两个脉冲。对神经元而言,唯一重要的是传入神经是否足够早地发放,以便突触前脉冲落在关键时间窗口内,而较晚的脉冲不能用于超快速分类。在这一点上(但仅在这一点上),我们必须考虑两个假设:突触前脉冲时间是完全随机的(例如,从泊松分布中得出),或者它们有些可靠。第一个假设会引起问题,因为第一个突触前脉冲(也是唯一考虑的脉冲)将对应于基本上随机的传入神经的子集,并且不会包含有关其真实活动的太多信息[46]。这个问题的解决方案是使用冗余神经元群(具有相似的选择性)来确保第一个突触前脉冲平均对应于最活跃的传入群体。在这项工作中,我们采用了第二个假设,假设传入神经第一次脉冲的时间(或者,准确地说,它们的发放顺序)是可靠的,并且确实反映了一定程度的活动。第二个假设得到实验支持。例如,最近对猴子的记录表明,IT神经元在接近刺激开始(100-150毫秒时间段)的脉冲计数方面的反应似乎过于可靠,无法用典型的泊松发放率模型拟合[47]。最近对猴子进行的另一项电生理学研究表明,IT细胞的潜伏期确实包含有关视觉刺激性质的信息[48]。在V1和许多其他神经元系统中也有关于精确脉冲时间响应的实验证据(参见[49]的综述)。

  非常有趣的是,STDP提供了一种有效的方法来开发对第一个脉冲模式的选择性,如这项工作所示。收敛后,STDP神经元达到的电位与当前输入和存储原型之间共同的早期脉冲数量相关联。这种"早期脉冲"与"后期脉冲"神经代码(虽然每个bin内的脉冲顺序无关紧要)不仅被证明足够强大,可以在自然图像中执行对象识别,而且读取速度快:当只有最早的传入神经被发放时,才能产生准确的反应。在腹侧流的每个阶段使用这种机制可以解释视觉系统实现的惊人处理速度。

Materials and Methods

  这里详细介绍了网络、STDP模型和分类方法。

  S1 cells. S1细胞通过对输入图像执行卷积来检测边缘。我们使用了5x5个卷积核,大致对应于波长为5(即,核包含一个周期)、有效宽度为2和四个首选方向的Gabor滤波器:π/8、π/4 + π/8、π/2 + π/8和3π/4 + π/8 (π/8是为了避免关注水平和垂直边缘,这很少用于诊断)。我们将这些滤波器应用于原始图像的五个缩放版本:100%、71%、50%、35%和25%。因此有4 x 5 = 20个S1映射。S1细胞发出脉冲信号,其延迟与卷积的绝对值成反比(因此,响应对于负图像操作是不变的)。我们还在此阶段限制活动:在给定的处理规模和位置,仅传播与最佳匹配方向对应的脉冲。

  C1 cells. C1细胞在给定的S1映射(对应于一个首选方向和一个处理尺度)的7 x 7正方形中传播S1细胞发出的第一个脉冲。C1映射中的两个相邻C1细胞对应于两个7 x 7个正方形的S1细胞,移位了六个S1细胞(因此一个S1行重叠)。C1映射因此子采样S1映射。准确地说,忽略副作用,C1细胞比S1细胞少6 x 6 = 36倍。正如Riesenhuber and Poggio [7]所提出的,这种最大操作是获得局部位移不变性的生物学上可行的方法。从图像处理的角度来看,这是一种在视网膜图内执行子采样而不会使高空间频率峰值变平的方法(如局部平均的情况)。

  我们还在这个阶段使用了局部横向抑制机制:当C1细胞发出脉冲时,它会增加地图中具有相同首选方向和相同比例的11 x 11方格内的邻居的延迟。延迟增加的百分比随着与脉冲的距离呈线性下降,从15%到5%。因此,如果一个区域明显被一个方向支配,细胞将相互抑制,脉冲序列将在全局范围内延迟,因此不太可能被STDP"选择"。

  S2 cells. S2细胞对应于中级复杂度的视觉特征。在此,我们使用了10种原型S2细胞类型,在混合模拟中使用了20种。每个原型细胞在五张映射(权重共享)中复制,每个映射对应一个处理比例。在这些映射中,S2细胞只能从相应处理尺度的四个C1映射中整合脉冲信号。感受野大小为16 x 16个C1细胞(忽略副作用;这导致96 x 96个S1细胞,原始图像中相应的感受野大小为[96 / 处理规模]2)。C1-S2突触连接由STDP设置。

  请注意,我们没有使用泄漏项。在大脑中,通过逐渐将膜电位重置为静息水平,泄漏将减少两个连续的脉冲波之间的干扰。在我们的模型中,我们逐一处理脉冲波并在每次传播之前重置所有电位,因此不需要泄漏。

  最后,此阶段的活动是有限的:k-winner-take-all策略确保每个处理规模最多可以有两个细胞发放。这种机制只在学习阶段使用,帮助细胞学习不同实际大小的模式。没有它,就会自然而然地偏向"小"模式(即大比例尺),因为相应的映射更大,因此在STDP过程开始时使用随机权重发放的可能性更高。

  C2 cells. 对于每个原型,这些细胞在所有位置和处理尺度上采用相应S2细胞的最大响应(即第一个脉冲),从而导致十个移位和尺度不变细胞(混合情况下为20个)。

  STDP model. 我们使用了一个简化的STDP规则:

其中 i 和 j 分别指的是突触后神经元和突触前神经元,ti 和 tj 是相应的脉冲时间,Δwij是突触权重修改,a+ 和 a- 是两个指定变化量的参数。请注意,权重变化不取决于确切的 ti - tj 值,而仅取决于其符号。我们还使用了无限时间窗口。这些简化相当于假设S1细胞的强度-延迟转换在相对较短的时间间隔(例如20-30毫秒)内压缩了整个脉冲波,因此所有突触前脉冲必然接近突触后脉冲时间,并且变化的减少变得可以忽略不计。在大脑中,这种变化的减少和有限的时间窗口是至关重要的:它们可以防止来自不同刺激的不同脉冲波干扰学习过程。在我们的模型中,我们将刺激逐一传播,因此不需要这些机制。请注意,使用这个简化的STDP规则,只有脉冲顺序很重要,而不是它们的精确时间。因此,S1细胞的强度-延迟转换函数没有影响,任何单调递减的函数都​​会给出相同的结果。

  乘法项wij · (1 - wij)确保权重保持在[0,1]范围内(兴奋性突触)并实现软边界效应:当权重接近边界时,权重变化趋于零。

  我们还将长期抑制应用于没有突触前脉冲到达的突触,就像突触后脉冲之后突触前脉冲到达一样。这对于消除由于突触上的原始随机权重而引起的噪声很有用,突触前脉冲从未通过这些权重到达。

  随着STDP学习的进行,我们增加了 a+ 和 |a-|。准确地说,我们从a+ = 2-6开始,每400个突触后脉冲将值乘以2,直到最大值为2-2。a 被调整以保持固定的 a+/a- 比率(-4/3)。这使我们能够在首选刺激有些"锁定"时加速收敛,而直接使用具有随机初始权重的高学习率会导致不稳定的结果。

  我们使用的阈值为64 (= 1/4 x 16 x 16)。初始权重是随机生成的,均值为0.8,标准差为0.05。

  Classification setup. 我们使用了RBF网络。在大脑中,这个分类步骤可以使用IT的输出在PFC中完成。令X是C2响应的向量(包含第一个实现的二值检测或第二个实现的最终电位)。这种分类器计算以下形式的表达式:

然后根据f(X)是否达到阈值进行分类。此阶段的监督学习涉及调整突触权重 c 以最小化训练集上的(正则化)误差[27]。Xi 对应于某些训练示例的C2响应(随机选择的训练集的1/4)。完整的训练集用于学习ci。我们使用了σ = 2和λ = 10-12 (正则化参数)。

  多类情况是用"一对多的方法"处理的。如果 n 是类的数量(这里是3),"I 类"与"所有其他类"的n RBF分类器受过训练。在测试时,n 个分类器中的每一个都发出一个(实值)预测,该预测与图像属于其类别的概率相关联。分配的类别是对应于最高预测值的类别。

  Hebbian learning. 通过取第一个脉冲延迟的倒数,来自C1细胞的脉冲序列被转换为实值活动(应该对应于发放率)(注意,这些活动并不完全对应于卷积值,因为局部横向C1层的抑制机制)。S2细胞的活动(或发放率)计算如下:

其中WS2是S2细胞的突触权重向量。请注意,当输入向量XC1与其权重向量WS2共线时,归一化会导致S2细胞做出最大响应([27]中提出了用于此类归一化的神经电路)。因此,WS2(或与其共线的任何向量)是S2细胞的首选刺激。对于另一个刺激XC1,响应与WS2和XC1之间的余弦成正比。这种调整已用于HMAX [26]的扩展。它类似于原始HMAX [7]的高斯调谐,但它对输入的范数是不变的(即,将输入活动乘以2对响应没有影响),这使我们能够保持对比度不变(另请参见[26]以了解两种调谐之间的比较)。

  在竞争过程中只考虑活动高于阈值的细胞。发现使用单独的自适应阈值很有用:每次有一个细胞成为获胜者时,其阈值被设置为其活动的0.91倍(调整该值以获得与STDP大致相同的权重更新次数)。竞争机制和之前完全一样,只是选择了最活跃的单元,而不是第一个发放的单元。获胜者的权重向量使用以下修改后的赫布规则进行更新:

其中 a 是学习率。发现从一个小的学习率(0.002)开始并每十次迭代以几何方式增加它是有用的。几何比设置为在2000次迭代后达到0.02的学习率,之后学习率保持不变。

  Differences from the model of Serre, Wolf, and Poggio. 在此,我们总结了我们的模型与他们的模型[6]在架构方面的差异(抛开学习和时间代码的问题)。

  我们处理输入图像的各种缩放版本(具有相同的滤波器尺寸),而不是在原始图像上使用各种滤波器尺寸:S1级,仅传播最佳匹配方向;C1级,我们使用横向抑制(见上文);S2级,当前输入和存储原型之间的相似性与相应脉冲序列之间共同的早期脉冲数量相关,而Serre et al.使用相应的C1活动补丁之间的欧氏距离。

  我们使用了RBF网络而不是支持向量机。

Supporting Information

Video S1. Face-Feature Learning

  在此,我们以随机顺序展示了面部训练示例,传播了相应的脉冲波,并应用了STDP规则。在屏幕顶部,显示输入图像,其中红色、绿色或蓝色方块表示发放的细胞(如果有)的感受野。在屏幕底部,我们重建了三个C2细胞的首选刺激。在每个重建上方,发出的突触后脉冲的数量以相应的颜色显示。红色、绿色和蓝色细胞分别对胸部、头部和面部的视图产生选择性。

Found at doi:10.1371/journal.pcbi.0030031.sv001 (3.3 MB MOV).

Video S2. Motorbike-Feature Learning

  红色细胞对摩托车的前部有选择性,而绿色和蓝色细胞都对车轮有选择性。

Found at doi:10.1371/journal.pcbi.0030031.sv002 (6.8 MB MOV).

Video S3. Mixed Case

  训练集由200张人脸图片、200张摩托车图片和200张背景图片组成。请注意,红色细胞对面部有选择性,蓝色细胞对头部有选择性,而绿色细胞说明了两个类别如何共享给定特征(圆形)。

Found at doi:10.1371/journal.pcbi.0030031.sv003 (7.6 MB MOV).

原文地址:https://www.cnblogs.com/lucifer1997/p/15526438.html