在视觉上的卷积神经网络及应用知识

在视觉/图像识别中，一个关键问题就是:如何得到内在的特征表示(internal representation of feature).在传统的方法中,人们都是通过一个手工设计的特征提取器(hand crafted feature)来得到需要的特征,然后把特征输入给分类器. 而现在在解决的问题是: 一个系统如何能够自动学习到我们需要的特征。 (看到区别了吧,传统的方法是手工设计特征提取器,而现在我们要求它能够自动的学习的这个特征)

好的内在特征表示是分等级的(good internal representations are hierarchical), 这就要求我们的识别系统也是由一级级的组成。所以，卷积神经网络就是这样的结构，所以它学习到的特征就是分等级的。

对于一个卷积神经网络，一个重要的概念：feature map, 我认为它就是一个特征表示。从一个原始的图像中，我们可以提取出很多个不多的特征，所以就可以有好多个feature map.

一个卷积神经网络的组成：它因为是分级的，所以可以由好几级组成，每一级通常包括3层：filter bank layer, non-linearity layer, feature pooling layer.

第一层：滤波层，它就相当于去提取输入的特征，对于每一个特征，要用于一个卷积核。Spatially translating the input of a feature detection layer will translate the output but leave it otherwise unchanged.

非线性层：传统的一般都是tanh()函数，该文中提出了一个新的方法：叫做：rhe rectified sigmoid Rabs.具体再说这是什么。

对于pooling层：1，可以有这么一层，如果没有这么一层的话，可以在通过在滤波层控制步长变向的来达到这一目的。

2，以前会在pooling层以后，再加一个tanh()函数或其它非线性函数，现在大多数不这么做的。

文中也介绍了卷积神经网络的历史及应用。

非监督学习方法，，——————PSD

参考文献为：Convolutional Networks and Applications in Vision。