Alex网络

alexNet共有八层网络
卷积层1：输入224*224*3 卷积核11*11*3*96 步长为4 然后是ReLU、局部归一化、3*3步长为2的最大值池化
卷积层2：输入为28*28*96 卷积核5*5*96*256 然后是ReLU、局部归一化、3*3步长为2的最大值池化
卷积层3：输入14*14*256 卷积核3*3*256*384 然后是ReLU
卷积层4：输入14*14*384 卷积核3*3*384*384 然后是ReLU
卷积层5：输入14*14*384 卷积核3*3*384*256 然后是ReLU、3*3步长为2的最大值池化
全连接层1：输入6*6*256 输出4096 然后是ReLU、DropOut
全连接层2：输入4096 输出4096 然后是ReLU、DropOut
全连接层3：输入4096 输出1000

具体图像地址：
http://app.liuchengtu.com/#R46a424714855ca651e9334b1ad1ce212
●第一层：

①输入图片为224x 224 x3, 表示长宽是224个像素，RGB彩色图通道为3通道，所以还要乘以3.（学界普遍认为论文中说的224不太合适，讲道理应该是227的大小才对，这也成为一个悬案），

②然后采用了96个11 x 11 x 3 的filter。在stride为4的设置下，对输入图像进行了卷积操作。所以经过这一卷积后的操作，输出就变成了55 x 55 x96 的data map。这三个数字的由来：（227-11）/ 4 + 1 = 55，96就是滤波器的个数。

③然后经过激活函数ReLu，再进行池化操作-pooling：滤波器的大小为3 x 3，步长stride为2. 所以池化后的输出为27x 27 x 96

（55-3）/ 2 + 1 =27. 96仍为原来的深度。

④LRN，局部响应归一化。后来大家都认为这个操作没有什么太大的作用，所以后面的网络几乎都没有这个操作，我也就不提了。

●其他第2、3、4、5层的计算过程类似。

●第六层：本层的输入为6 x 6 x 256，全连接层其实就是一个矩阵运算，它完成一个空间上的映射。所以把输入看成一个列向量X，维度为9216（6 x 6 x 256），也就是你可以把输入看成一个9216 x 1的矩阵。

然后和参数矩阵W相乘，参数矩阵W你此时设置为4096 x 9216

所以最后本全连接层的输出就是矩阵相乘Y = W·X得 4096 x 1的矩阵

●第八层：第八层的输出就为1000 x 1的矩阵，即1000维度的一个列向量，对应softmax regression的1000个标签