CV 第九课 CNN框架 AlexNet

AlexNet

  结构:

    Conv,pooling,Normalization,Conv,pooling,Normalization,Conv,Conv,Conv,Pool,FC,FC,FC

Conv层:

  输入 227*227*3  , 96个11*11*3的filter,步长=4,pad=4,边长 = (227-11)/4+1 = 55

  输出: 55*55*96

  参数数量: 就是weight matrix的总数  =  96*11*11*3 = 35K

  

池化层:

  输入: 55*55*96 , filter 为 3*3,strde=2,边长 = (55-3)/2+1 = 27

  输出: 27*27*96

  参数数量:0!       # 不像卷积层的filter都是weight matrix,池化层的filter是一个最大化函数,所以没有参数

  

计算尺寸:

  

   输入:               227*227*3 

  CONV1 :         55*55*96

  MAXPOOL1:  27*27*96

  NORM1:           27*27*96

  CONV2:            27*27*256                               # (27-5+4)/1+1 = 27

  MAXPOOL2     13*13*256                                  # (27-3)/2+1

  CONV3             13*13*384                                  # (13+2-3)/1 + 1

  CONV4             13*13*384

  CONV5             13*13*256  

  MAXPOOL3       6*6*256                                       # (13-3)/2+1=6

  FC6                     4096                                           # 把 6*6*256的输入flatten 再与 4096个 6*6*256的filtter计算         https://www.cnblogs.com/ChevisZhang/p/12974224.html 全连接层操作

  FC7      4096

  FC8      1000

细节:

第一次运用ReLu的网络

很多数据增强: flipping jittering cropping collor_normalization

learning_rate decay : 开始为1e-2,遇到不再下降的地方衰减至 1e-3

model emsembling:  CNN集成学习

模型的真实输入是 227*227*3 也有的地方说 224*224*3

由于当年GPU内存不够,所以整个神经网络被分为两部分,比如 55*55*96 被分为 55*55*48*2

原文地址:https://www.cnblogs.com/ChevisZhang/p/12973587.html