卷积神经网络经验

1. 30卷积+20卷积+20卷积+10全连接 < 20卷积+20卷积+30卷积+10全连接参数个数，因为后面全连接是相乘的关系，前面是相加的关系

2. BN层在LOSS 不怎么下降时可以起到奇效

3. 随着网络的加深，会出现梯度消失的情况，这就是不一定越深越好，这个时候可以用RESNET，RESnet 为什么好呢？

http://blog.csdn.net/wspba/article/details/56019373

1.即增加一个identity mapping（恒等映射），将原始所需要学的函数H(x)转换成F(x)+x，而作者认为这两种表达的效果相同，但是优化的难度却并不相同，作者假设F(x)的优化会比H(x)简单的多。这一想法也是源于图像处理中的残差向量编码，通过一个reformulation，将一个问题分解成多个尺度直接的残差问题，能够很好的起到优化训练的效果。

4.借鉴Metric-learning 可以看到，有时候改loss 可以再一个batch-size ，对不同的类别进行操作