【深度学习】论文：AlexNet

【一】

网络结构很重要，一层都不能少

如果算力提升，效果很显然可以继续提升。

防止过拟合很重要

【二】数据集

train 120w valid 5w test 15w，

报告两个错误率 top1 - top5

预处理：裁剪成 256 x 256, 每张照片 demean

【三】网络结构

3.1 Relu：速度快很多

3.2 双GPU并行跑：提升1.7% 1.2% （比较单GPU，一半神经元）

3.3 局部标准化：提升泛化能力

3.4 overlap pooling:

传统pooling 2x2, new pooling 步长2 邻域3，

【四】防止过拟合

6000w个参数

4.1 数据增强：反射平移、改变RGB的强度、

4.2 dropout: 0.5的概率为0，只在两层全连接。最后用所有的，只是输出乘以0.5

【五】学习细节

sgd 0.9 momentum 0.0005 weight decay，这个decay是施加在momentum上的

weight decay十分重要！

w为std为0.01的正态分布，b有一些为1，有一些为0，为了加速

lr相同0.01，当不会更好的时候 lr 除以10，一共做了三次

训练了90个循环。

待填坑：

1、local normalize具体实现

2、模型效果与evaluation