【深度学习】论文:AlexNet

有个写的很好的文章:https://zhuanlan.zhihu.com/p/80087776

【一】

网络结构很重要,一层都不能少

如果算力提升,效果很显然可以继续提升。

防止过拟合很重要

【二】数据集

train 120w valid 5w test 15w,

报告两个错误率 top1 - top5 

预处理:裁剪成 256 x 256, 每张照片 demean

【三】网络结构

3.1 Relu:速度快很多

3.2 双GPU并行跑: 提升1.7% 1.2% (比较单GPU,一半神经元)

3.3 局部标准化:提升泛化能力

3.4 overlap pooling:

传统pooling 2x2, new pooling 步长2 邻域3, 

【四】防止过拟合

6000w个参数

4.1 数据增强: 反射 平移 、 改变RGB的强度、 

4.2 dropout: 0.5的概率为0, 只在两层全连接。最后用所有的,只是输出乘以0.5

【五】学习细节

sgd 0.9 momentum 0.0005 weight decay,这个decay是施加在momentum上的 

weight decay十分重要!

w为std为0.01的正态分布,b有一些为1, 有一些为0, 为了加速

lr相同0.01, 当不会更好的时候 lr 除以10,一共做了三次

训练了90个循环。

待填坑:

1、local normalize具体实现

2、模型效果与evaluation

原文地址:https://www.cnblogs.com/yesuuu/p/12766209.html