人脸识别智能小程序 | 卷积神经网络基础

人脸识别智能小程序 | 卷积神经网络基础 | 02

什么是卷积神经网络

卷积神经网络：以卷积结构为主（除了conv，还有pooling，dropout等层次结构），搭建起来的深度网络。

将图片作为输入：卷积输入数据的维度((n,h,w,c)),分别表示batch_size,高度，宽度，色彩通道。
自动提取特征：参数优化
图片的变形具有高度不变性：对于图像的形变是不敏感的，是鲁棒的

特征提取通常是在输出结果前的一层，FC层，经过这个FC层，卷积特征就会变成一个向量，这个向量具体多少维，取决于FC的参数。

卷积神经网络的重要组成单元

这里需要重点介绍的有：

卷积层
池化层
激活层
BN层
LOSS层
全连接层

卷积：对图像和滤波矩阵（卷积核）做互相关运算（对应元素相乘再求和）的操作。

卷积操作简单来说就是图像和滤波矩阵进行先乘后加的操作。

滤波器
每一种卷积对应一种特征
Im2col实现卷积运算：实现卷积运算不是两重循环，而是先把图片转换成向量，然后进行向量的运算。

右下图是一个卷积的具体例子，卷积核和对应图片的一个区域，每个元素与对应元素进行相乘，最后在逐个相加，得到结果（一个数）！

卷积中的重要参数

卷积核

最常用为2D卷积核((k_w*k_h))
权重和偏置项
常用卷积核：1*1，3*3，5*5，7*7 （一般不会超过7*7）

为什么卷积核都是奇数的大小？因为有“中间点”，feature map存在“中间点”与原来的图像进行一一对应，可以保留图像的空间信息。

一般而言，卷积操作后feature map的尺寸会变小，padding可以使得feature map的尺寸与原图像一致。

卷积——权值共享与局部连接（局部感受野/局部感知）

卷积运算作用在局部（这里的filter size应该被认为是卷积后的feature size的大小）
Feature map使用同一个卷积核运算后得到一种特征（权值共享）
多种特征采用多个卷积核（channel）

从层和层之间的连接关系来看，输入层和输出层是局部连接的。也就是当前的一个局部区域，对应到输出的feature map的一个点。

全连接就是feature map上的点和输入层的每一个点都存在连接关系。

上面的示例图说的就是权值共享&局部连接。

局部连接：

对于一个1000 × 1000的输入图像而言，如果下一个隐藏层的神经元数目为10^6个，采用全连接则有1000 × 1000 × 10^6 = 10^12个权值参数，如此数目巨大的参数几乎难以训练；而采用局部连接，隐藏层的每个神经元仅与图像中10 × 10的局部图像相连接，那么此时的权值参数数量为10 × 10 × 10^6 = 10^8，将直接减少4个数量级。
权值共享：

尽管减少了几个数量级，但参数数量依然较多。能不能再进一步减少呢？能！方法就是权值共享。具体做法是，在局部连接中隐藏层的每一个神经元连接的是一个10 × 10的局部图像，因此有10 × 10个权值参数，将这10 × 10个权值参数共享给剩下的神经元，也就是说隐藏层中10^6个神经元的权值参数相同，那么此时不管隐藏层神经元的数目是多少，需要训练的参数就是这 10 × 10个权值参数（也就是卷积核(也称滤波器)的大小），如下图。

这大概就是CNN的一个神奇之处，尽管只有这么少的参数，依旧有出色的性能。但是，这样仅提取了图像的一种特征，如果要多提取出一些特征，可以增加多个卷积核，不同的卷积核能够得到图像的不同映射下的特征，称之为Feature Map。如果有100个卷积核，最终的权值参数也仅为100 × 100 = 10^4个而已。另外，偏置参数也是共享的，同一种滤波器共享一个。

卷积核的大小就对应感受野的区域大小，比如(3*3)d的卷积核，其感受野的大小就是(5*5)。

卷积核越大，意味着感受野越大，感受野越大，意味着感知到这个图像的区域信息就会越多。但是如果用大卷积核，不见得学到的结果就好。例如上图，以2D举例，(3*3)卷积核的参数个数为9，(5*5)卷积核的参数个数为25，(7*7)卷积核的参数个数为49，参数过多容易导致过拟合。

小卷积核是减少了计算量，但是如何实现大卷积核的效果呢？答案是叠加卷积。

例如右上图，(3*3)大小的卷积核卷积一次得到的feature map的大小为(3*3)，在用(3*3)的卷积核再卷积一次，那么其大小就会变成(1*1)，其效果等价于直接使用(5*5)的卷积核进行一次卷积。

使用小卷积核替代大卷积核的好处：参数量和计算量明显降低！

通过多个小卷积核来替代一个大卷积核，不仅可以保证感受野的大小不变，而却网络的深度会加深，那么就可以在卷积层和卷积层的其中加入一些非线性层，使得网络的非线性能力更加的强，意味着网络描述一个事物的能力会变强。

评估卷积的参数量是必须掌握的。

参数越多，那么对机器的性能就越高，在保证性能的前提下，当然是希望参数越小越好！参数越多，意味着我们的模型越复杂。

步长（Stride）

下采样的过程
输出Feature Map的大小变化：((N-F)/stride+1)

stride一般都是设置为1或2。

Pad

确保Feature Map整数倍变化，对尺度相关的任务尤为重要

比如(8*8)大小的矩阵，卷积核的大小为(3*3)，那么经过pooling得到的Feature Map的大小为(6*6)，(8*8)和(6*6)相差不是整数倍！

具体要pad多少呢？和卷积核的大小相关

F=3 =》zero pad with 1
F=5 =》zero pad with 2
F=7 =》zero pad with 3

卷积的定义和使用

在tensorflow中定义卷积的话，实际上有很多方法，使用tf.nn原生方法来定义的话，需要自己先定义权值项filter_weight和偏置项biases，

slim是对tensorflow更加高层的一个封装，也可以方便的定义卷积。

池化的基本概念

池化：对输入的特征图进行压缩

使特征图变小，简化网络计算复杂度（stride就是有下采样的作用）
进行特征压缩，提取主要特征
增大感受野

池化是对Feature Map进行压缩，得到更小的Feature Map！

压缩Feature Map，一方面是可以减少计算量，还有这也是一个特征提取的过程，另外，对Feature Map压缩可以增大感受野。

注意：池化层是没有参数的，所以进行BP的时候是无关池化层的事情！

激活函数的基本概念

激活函数：增加网络的非线性，进而提升网络的表达能力

如何理解线性和非线性？

从分类器的角度来理解：

线性分类器就是用一个“超平面”将正、负样本隔离开，如：
（1）二维平面上的正、负样本用一条直线来进行分类；
（2）三维立体空间内的正、负样本用一个平面来进行分类；
（3）N维空间内的正负样本用一个超平面来进行分类。
非线性分类器就是用一个“超曲面”或者多个超平（曲）面的组合将正、负样本隔离开（即，不属于线性的分类器），如：
（1）二维平面上的正、负样本用一条曲线或折线来进行分类；
（2）三维立体空间内的正、负样本用一个曲面或者折面来进行分类；
（3）N维空间内的正负样本用一个超曲面来进行分类。

从函数定义角度来说：

线性：1、变量之间的变化率为恒量，函数关系是直线；2、满足叠加原理，即f(ax + by) = af(x) + bf(y)。
非线性：所有不满足线性条件的关系就是非线性。
可以写成多元一次方程组形式的，就是线性。二次以上就是非线性。

sigmoid函数将输入的值归一化到0到1中去 (x => [0,1])，([0,1])之间有什么特点呢？可以表达概率。因此如果是分类任务，可以使用sigmod函数将结果映射到([0,1])当中，这样就拿到一个关于结果预测的概率分布。

sigmoid函数很少在网络的中间层，主要原因就是sigmoid容易出现梯度弥散/梯度饱和这样的问题，BP由链式法则进行乘法叠加，那么就会有梯度弥散（就是梯度很小，收敛很慢）。

指数运算是一个非常耗时的运算！

sigmoid更多是作为最后的输出层。

sigmoid和tanh在RNN中应用会更多，在CNN中应用是较少的！

tanh和sigmoid的问题是类似的，一个就是梯度弥散的问题，一个就是指数运算的问题。

tanh和sigmoid的区别在于输出是否以零为中心。

一般在设计CNN的时候都是不会用到tanh和sigmoid的，sigmoid还CNN还会有用到，tanh基本是不会在CNN中出现的

RuLU激活函数是现在CNN的标配激活函数！

BatchNorm层/批量归一化层

(eta,gamma)这两个是在BN层可以被进行学习的参数。

BatchNorm层：通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0，方差为1的标准正态分布。

为什么需要引入BatchNorm层对数据进行规范化处理呢？

对于原始的输入数据，如果我们不加规范化的话，输入数据的分布是不可控的，每个层的数据分布都是有差异的。而且这个差异，在训练的过程中，由于经过多轮的BP算法，每一轮的BP算法都会改变相应层的参数，这一层参数的改变，也意味着这一层的输入输出也会发生变化，输入输出发生变化，数据的部分又不可控，这个时候带来的一个现象就是训练过程中，每一层的分布是不停在变化的，这对于网络的收敛是非常不利的，也正是因为这样的一个原因，才会对输入的数据进行约束。

BatchNorm层使用在激活函数之前，BatchNorm层本质上是一种线性变换，激活函数是非线性变换。

引入BatchNorm层，对数据进行规范化的约束，会带来很多优点。

可以取消Dropout层和L2正则项
BN层可以加速模型收敛，因此学习率可以稍微增大
BN可以理解为在每个小批量里加入了噪音，以此来控制模型的复杂度

上面是TensorFlow中三种使用BN的方式。

全连接层

全连接层：连接所有的特征，及那个输出值送给分类器（比如softmax分类器）

将网络的输出变成一个向量：卷积层输出的结果，一定是一个四维的特征图((n,h,w,c))，需要将这个四维矩阵转化为一维向量进行全连接
可以采用卷积代替全连接层
全连接层是尺度敏感的：全连接层的参数是固定的，如果输入的个数改变，那么运算的式子也会跟着改变。
配合使用dropout层：因为全连接层的参数量非常大，所以使用dropout层随机丢弃一些节点

全连接层就是一个线性运算。

通常而言，一个卷积网的参数量，大部分都是占据在全连接层的，比如VGG，80%的参数都是来自最后的FC层。

Dropout层/丢弃法

使用全连接层由于参数量非常大，所以会使用dropout层，来对节点进行杀死。

dropout：在训练过程中，随机的丢弃一部分输入，此时丢弃部分对应的参数不会更新（置零）。

防止模型过拟合有两种处理方式：

一种是让模型变得比较小（就是减少参数） =》丢弃法
一种是让每个参数选择值的范围比较小 =》权重衰退

下面是范数知识的补充

关于权重衰退知识的补充

损失层

损失函数：用来评估模型的预测值与真实值的不一致程度。

经验风险最小：得到的结果最优
结构风险最小：防止模型过于复杂（过拟合）

交叉熵损失、softmax这些都是经验风险最小的损失函数，需要在损失函数中加入一个惩罚项。

常见的结构风险最小的函数有L0，L1，L2。

损失层一般都是定义了经验风险最小，那么结构风险最小需要另外加约束，比如对卷积的核函数参数((w,b))，那么可以对其添加L2正则化。

交叉熵损失实际上是源于逻辑回归中的似然损失。

什么是似然？我们在学习概率统计的时候经常会去区分两个概念，就是概率和似然。

概率通常是一个统计上的概念，某一个事件出现的频次
似然是在已知结果的情况下，反推产生这些结果的原因（在深度学习中这些原因就是我们要进行学习的参数）

非负性：对于损失，都是大于等于0的，因为只有大于等于0，这样才能找到一个最小值。

上面的公式是以二分类作为例子给出的。

L1在0点不可导，L2在0点可导，但是L2越靠近0，那么梯度的值就越来越小。

Smooth L1是综合考虑了L1和L2的特点。在((-1,1))中靠近0点使用L2，其他使用L1加速收敛。

常见的卷积神经网络结构

模型是要设计的越复杂还是更加的轻量？

工业界希望是在保证准确率的情况下，模型设计的越轻量越好。

学术界则希望模型能够设计的更加的复杂，这样来保证模型的正确率。

LeNet

LeNet应用于一个十分类问题（手写数字识别 mnist）。

从LeNet可以看到分类任务的大概思路。

图片输入，经过（conv，pooling），在经过全连接层（FC n分类就n维），最后经过softmax，得到一个([0,1])的概率值。

AlexNet

2012年显卡的显存还是有限的，网络模型图中给出的两个分支，表示使用两张显卡进行分布式训练。

conv-relu-pooling-LRN

网络图所示，图片经过多轮卷积，(11*11,5*5,3*3,3*3,3*3)，AlexNet在设计的时候，每一个卷积之后，都会配有relu,pooling,LRN三个层。

relu 增加非线性能力

pooling 下采样，增大图像感受野，对图像进一步提取

LRN 归一化，将数据约束在一定

fc-rule-dropout

在经过两个fc层，后面跟着rule和dropout，因为fc层的参数量非常大，所以这里要使用dropout层进行一些参数的删除（置零）。

fc-softmax

最终将特征映射到一个1000维的向量上。

最终训练出来的参数在60M以上，整个模型大小在200M以上。

ReLU激活函数

ReLU激活函数相对于其他的激活函数，能实现一个更快的计算速度，并且在x大于0时，不会出现梯度消失这样的问题。

ReLU也成了后面我们设计卷积神经网络的一个标配。

Dropout层

FC+Dropout层是标配，dropout可以减少过拟合的风险，因为FC中存在过多的参数，通过dropout能够对FC的参数进行约束。

LRN层

后面研究发现LRN层其实没有多大作用，现在基本已经被弃用了，现在使用的最多的是BN层。

ZFNet

ZFNet对于AlexNet并没有多大的改进，只是对AlexNet进行了一些细致的调整。ZFNet的最大贡献是对卷积网络为什么有效进行了分析。

ZFNet中提出的几点结论，是非常有普适性的。

ZFNet将特征进行可视化展示，具体是如何实现呢？上图的右边是正常卷积网的一个数据流向，对于我们最终下采样拿到的一个图片，我们该如何还原成最初的图片呢？实际上如果想进行百分百的还原，这是不可能的，因为经过激活层和pooling层的时候，会对图像造成不可逆的破坏，因此这个还原只是对特征高层次的语义分析，具体是通过上采样和反卷积操作来完成的，最终得到与原始图像大小一致的特征图。

通过观察这些还原出来的特征图，作者总结出下面的结论。

特征分层次体系结构

对于CNN，特征的层次结构是非常明显的，通过浅层的卷积网络，可以得到纹理、颜色这些低层次的特征，再经过卷积，可以得到更加精细的纹理结构，这些特征图再经过多次深层的卷积，这时候在反卷积可视化，实际上很难在视觉上描述是什么特征，这称为高层次的语义特征。

下图是训练时的特征演变。

越浅层的网络提取出来的特征就越低，

深层特征更鲁棒

这个鲁棒体现在哪里呢？如果输入的图像发生了轻微的扰动，那么浅层的特征会发生明显的变化，但是对于深层的特征，产生的变化会越来越小。

也就说，深层次的特征对输入的图像变得越来越不敏感，越来越鲁棒。

深层特征更有区分度

利用这些深层特征，可以更好的完成图像的分类。

深层特征收敛更慢

网络加深之后很难收敛，也就是越来越难训练，但是加深网络确实效果会更好。

ResNet解决了网络加深后收敛变慢的这个问题。

VGG

为了研究网络深度对模型准确度的影响，并采用小卷积堆叠的方式，来搭建整个网络结构

都是采用了(3*3)的小卷积。

参数量：138M；模型大小>500M

VGG的网络更大，对比参数量的大小和模型大小就可以知道。

上面的VGG示例图只列出了卷积的结构，实际上在卷积当中还会插入激活层和池化层。

上面列出了11层、13层、16层、19层（卷积层、FC层是需要进行参数训练的，池化层不需要训练）。

这里输入图像的大小是(224*224)，这个尺寸是对应ImageNet挑战赛图像分类任务的图像尺寸，这也是为什么我们在设计分类识别任务的时候采用(224*224)来设计和训练网络。我们想要使用ImageNet挑战赛上表现优秀的模型来进行模型迁移，那么就需要保证和训练的模型数据的一致性，所以在设计网络的时候会尽量保证尺寸为(224*224)。

更深的网络结构，结构更加规整、简答
全部使用(3*3)的小型卷积核核(2*2)的最大池化层

不难发现一点，VGG的网络非常深，相比AlexNet，它的卷积是非常多的，另外可以发现这里的卷积核都是(3*3)的卷积核，没有大于(3*3)的卷积核。

小卷积核可以实现大卷积核的感受野范围，同时计算量会更小。

每次池化后Feature Map宽高降低一半，通道数量增加一倍

每次经过一个pooling层，channel的数量会乘2，保证提取的数量。

网络层数更多，结构更深，模型参数更大

证明了更深的网络，能够提取更好的特征
成为后续很多网络的backbone

利用VGG来进行特征的提取，虽然VGG只在ImageNet挑战赛获得第二名，但是使用VGG提取出来的图像特征往往更有效。

这也是为什么VGG也成为后续很多网络的主干网络。

规范化了后续网络设计的思路

VGG也规范了后面网络的设计思路，后续的网络设计基本都是非常的规整。

基本都有一个最小的结构单元，然后在这个单元上进行堆叠。

还有就是一个默认：每次下采样过后，channel的数量也会相应的增加。

Inception

Inception结构，在设计网络结构时，不仅强调网络的深度，也会考虑网络的宽度。

网中网的结构，也就是Inception结构。

Inception结构在后面设计网络结构的时候也是经常会被用到的一个网络结构。

Inception提出后，Google也进行了一系列的改进，提出v2、v3..

更多的卷积：网络的宽度（channel数量）

更深的层次：网络的深度

为什么GoogleNet的网路深度很深，宽度也很宽，可最终的参数量却很小呢？主要就是有效的利用了(1*1)的卷积核。

Inception结构是GooLeNet的最小结构单元，当然GoogLeNet中包含多个Inception结构，每个Inception结构都有一些细微的差别。

不同于VGG的”串“结构，GoogLeNet表现为一个”网中网“的结构，输入的中间的这样一个层，它的每个结点同样也是一个卷积。

值得学习的一个点就是在经过(3*3)和(5*5)的卷积核之前，会使用(1*1)的卷积核来减少channel的数量。

GoogLeNet为了保证网络变深之后能够收敛的更好，利用了2个loss来进行训练。

GoogoLeNet最大的启示就是教会我们如何巧妙的利用(1*1)的卷积核。

理解为什么什么(1*1)的卷积核可以实现降维？

这个就是卷积运算本身的内容，卷积核的channel是多少，那么最后的结果是把每个channel进行相加。

也就是如果输入(28*28*192)经过一个(1*1*64)的卷积核后，尺寸会变成(28*28*3)。

上图的左右和右边分别表示在图片输入之前有没有加入(1*1)的卷积核。

更深的网络结构，同时考虑了网络的宽度

GoogLeNet在设计的时候不仅考虑网络的深度，也考虑的网络的宽度。

两个LOSS层，降低过拟合风险
巧妙地利用(1*1)的卷积核来进行通道降维，减小计算量

这里的更新是利用两个(3*3)替换(5*5)，利用(n*1)和(1*n)替换了(n*n)。

使用小卷积核替换大卷积核的好处：

参数量减少，计算量减少
网络变深，那么可以插入更多的激活函数，增加网络的非线性能力。

实验表明，对于卷积的这种拆分，最好是在网络的中间使用，不要再输入的开始就进行这样的卷积拆分。

ResNet

ResNet引入跳连结构来防止梯度消失问题，可以进一步加大网络的深度。

ResNet也是后面许多网络结构作为主干网络进行特征提取的首选。

VGG最多有19层，ResNet可以达到上百层。为什么ResNet的网络结构可以这么深呢？因为引入了跳连的结构。

这种跳连结构直接将输入层的特征传递到输出层，然后和卷积之后的结果进行相加，最后可以得到一个结合了原始输入特征的输出特征。

在网络加入这样跳连的线，实际上并没有增加参数量，虽然网络结构发生了变化，但是网络的参数量是没有发生变化的，这也是跳连结构的一个优点。

ResNet在设计的时候同样采用卷积堆叠的方式，但是不再是串联，而是这种带有跳连的结构来作为核心单元。然后网络使用这样的单元来进行堆叠。

输入使用(7*7)的卷积核，由于初始channel为3，问题不大。可以发现后面深层一点的卷积核都是(1*1)和(3*3)的。

ResNet在最后分类的时候，采用的不是FC，而是average pool。VGG的80%的参数集中在FC层，使用一个池化层来替换掉FC层，会减少很多的参数量，因为池化层本身是没有参数的。

对于像50、101、152层的ResNet，其中还采用了(1*1)的卷积核来减少计算量，整个还是可以接受的。

上图有给出网络需要的计算量FLOPs。

还有就是ResNet对缓存有要求，如下图，从A->C不是直接串联下来的，而是需要把A先进行缓存，如果feature map比较大或channel比较多，对机器的缓存就有要求。

例如上图，网络当然不是越深越好，这是一定的，比如F3的网络可能最优解比F6找到的要更好，这种虽然网络更深，但是并没有表现得更好，这就是模型偏移。

ResNet的思想就是可以保证模型不会变差。

如下图，输入的特征为x，输出特征为(H(x)=f(x)+x)

也就是，即使没有(f(x))，那么(H(x))也有x作为保底。

从卷积的角度思考，如何减小网络中的计算量

从GoogleNet中，可以总结出下面几个结论，来减少卷积网络中的计算量。

小卷积核来对大卷积核进行拆分

对于(5*5)和(7*7)这样的大卷积核（不可能比7更大），最多只会使用再输入层，因为原始图片输入channel为3，那么channel为3的计算量还是很小的，但是后续的channel的可能是32、64、128，这就是非常大一个channel数量。

后面一般都是采用(3*3)或(1*1)的卷积核，不太会采用其他的大小的卷积核。像类似(1*3)和(3*1)也很少使用，只用在Inception中使用了。

stride=2代替pooling层

stride=2可以直接降低当前卷积层的计算量。

巧妙地利用(1*1)的卷积核来进行降维

(1*1)卷积核可以帮助减少channel的数量。

我们在设计卷积的时候，要压缩网络的时候，就可以从上面的点来进行考虑。

卷积神经网络结构对比

AlexNet：开启了卷积神经网络的风暴

VGG：加深了卷积神经网络

GoogLeNet：加深、加宽了网络

ResNet：更加加深了网络

卷积神经网络中的Attention机制

注意力机制可能大家在循环神经网中大家了解会比较多一点，实际上在卷积神经网络中也存在attention机制。

attention是模仿人脑在观察图片的时候，会像关注重要的信息。

引入attention机制，使得网络有更好的可解释性。

attention就是对图像相应位置进行不同程度的加权，

Hard-Attention：0/1这样的mask

Soft-Attention：0~1这样的mask

attention就是一种加权的思路，这种加权的思路不仅可以用在特征图，还可以用在原始图、空间尺度...

上部分是一个标准的ResNet结构，下部分就是在计算特征图上每个点的权值，通过卷积和反卷积，得到和feature map大小一致的结果，然后对这个输出结果进行激活，然后和特征结果进行点乘，再进行相加，这就完成了对特征图的加权。

上图是将特征图作用在通道上的一种加权的方法。

模型压缩

想要让模型跑在嵌入设备中

一种方法就是设计一些轻量型的卷积神经网络
还有就是对大的模型进行模型压缩

模型压缩也是在精度和速度之间的一种平衡。

学院派希望精度越高越好，工程派希望在精度一定时候，能够让模型尽可能的轻量，减少计算量。

模型剪枝

小结

什么是卷积神经网络

卷积神经网络：以卷积结构为主（除了conv，还有pooling，dropout等层次结构），搭建起来的深度网络。
*   将图片作为输入：卷积输入数据的维度$(n,h,w,c)$,分别表示batch_size,高度，宽度，色彩通道。
*   自动提取特征：参数优化
*   图片的变形具有高度不变性：对于图像的形变是不敏感的，是鲁棒的

特征提取通常是在输出结果前的一层，FC层，经过这个FC层，卷积特征就会变成一个向量，这个向量具体多少维，取决于FC的参数。

卷积的基本定义

卷积：对图像和滤波矩阵（卷积核）做互相关运算（对应元素相乘再求和）的操作。

卷积操作简单来说就是图像和滤波矩阵进行先乘后加的操作。

*   滤波器
*   每一种卷积对应一种特征
*   Im2col实现卷积运算：实现卷积运算不是两重循环，而是先把图片转换成向量，然后进行向量的运算。

卷积核，以及卷积核的大小为什么都是奇数？

卷积核

*   最常用为2D卷积核$(k_w*k_h)$
*   权重和偏置项
*   常用卷积核：1*1，3*3，5*5，7*7 （一般不会超过7*7）



为什么卷积核都是奇数的大小？因为有“中间点”，feature map存在“中间点”与原来的图像进行一一对应，可以保留图像的空间信息。

一般而言，卷积操作后feature map的尺寸会变小，padding可以使得feature map的尺寸与原图像一致。

卷积中的局部连接和权值共享

局部连接：图片中只有局部与输出的feature map的点有关
全连接：feature map的店与图像中的全部点都有关

权值共享：没有必要每一个局部都训练出一个卷积核的参数，一个就行了（提取同一种特征，而且与位置无关）

局部连接&权值共享大大减小了图片的网络参数数量！

卷积核与感受野

**使用小卷积核替代大卷积核的好处：参数量和计算量明显降低！**

通过多个小卷积核来替代一个大卷积核，不仅可以保证感受野的大小不变，而却网络的深度会加深，那么就可以在卷积层和卷积层的其中加入一些非线性层，使得网络的非线性能力更加的强，意味着网络描述一个事物的能力会变强。

如何估算卷积的参数量？

32*32*3image
filter size:5*5
filter num:100

那么参数的个数为
5*5*3*1*100

如果没有权值共享，那么为 (5*5*3)*(28*28)*100

步长

步长（Stride）

*   下采样的过程(把高维矩阵通过一个隐层映射为一个维数较低的矩阵)
*   输出Feature Map的大小变化：$(N-F)/stride+1$

stride一般都是设置为1或2。

pad

Pad

*   确保Feature Map整数倍变化，对尺度相关的任务尤为重要

比如$8*8$大小的矩阵，卷积核的大小为$3*3$，那么经过pooling得到的Feature Map的大小为$6*6$，$8*8$和$6*6$相差不是整数倍！

具体要pad多少呢？和卷积核的大小相关

*   F=3 =》zero pad with 1
*   F=3 =》zero pad with 2
*   F=3 =》zero pad with 3

池化层

池化：对输入的特征图进行压缩

*   使特征图变小，简化网络计算复杂度（stride就是有下采样的作用）
*   进行特征压缩，提取主要特征
*   增大感受野



池化是对Feature Map进行压缩，得到更小的Feature Map！
压缩Feature Map，一方面是可以减少计算量，还有这也是一个特征提取的过程，另外，对Feature Map压缩可以增大感受野。

注意： 池化层是没有参数的，所以进行BP的时候是无关池化层的事情！

什么是线性？什么是非线性？

从分类器的角度来理解：

*   线性分类器就是用一个“超平面”将正、负样本隔离开，如：
    （1）二维平面上的正、负样本用一条直线来进行分类；
    （2）三维立体空间内的正、负样本用一个平面来进行分类；
    （3）N维空间内的正负样本用一个超平面来进行分类。
*   非线性分类器就是用一个“超曲面”或者多个超平（曲）面的组合将正、负样本隔离开（即，不属于线性的分类器），如：
    （1）二维平面上的正、负样本用一条曲线或折线来进行分类；
    （2）三维立体空间内的正、负样本用一个曲面或者折面来进行分类；
    （3）N维空间内的正负样本用一个超曲面来进行分类。



从函数定义角度来说：

*   线性：1、变量之间的变化率为恒量，函数关系是直线；2、满足叠加原理，即f(ax + by) = af(x) + bf(y)。
*   非线性：所有不满足线性条件的关系就是非线性。
*   可以写成多元一次方程组形式的，就是线性。二次以上就是非线性。

激活函数，sigmoid，tanh，ReLU

激活函数：增加网络的非线性，进而提升网络的表达能力

sigmoid:
sigmoid函数将输入的值归一化到0到1中去 $x => [0,1]$，$[0,1]$之间有什么特点呢？可以表达概率。因此如果是分类任务，可以使用sigmod函数将结果映射到$[0,1]$当中，这样就拿到一个关于结果预测的概率分布。

sigmoid函数很少在网络的中间层，主要原因就是sigmoid容易出现梯度弥散/梯度饱和这样的问题，BP由链式法则进行乘法叠加，那么就会有梯度弥散（就是梯度很小，收敛很慢）。

指数运算是一个非常耗时的运算！
sigmoid更多是作为最后的输出层。
**sigmoid和tanh在RNN中应用会更多，在CNN中应用是较少的！**

tanh:
tanh和sigmoid的问题是类似的，一个就是梯度弥散的问题，一个就是指数运算的问题。
tanh和sigmoid的区别在于输出是否以零为中心。
**一般在设计CNN的时候都是不会用到tanh和sigmoid的，sigmoid还CNN还会有用到，tanh基本是不会在CNN中出现的**

ReLU:
**RuLU激活函数是现在CNN的标配激活函数！**

BatchNorm层/批量归一化层

BatchNorm层：通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0，方差为1的标准正态分布。

效果：非常的work！现在基本是深层卷积网络的标配。（典型的工程走在理论前面！）
作用：可能就是通过在每个小批量里加入噪音来控制模型的复杂度（防止过拟合），还有就是BN层可以加速收敛速度，但是对精度不会影响太多（所以一般大家都乐意加上BN层，能加速何乐而不为呢）


引入BatchNorm层，对数据进行规范化的约束，会带来很多优点。
*   可以取消Dropout层（丢弃法）和L2正则项
*   BN层可以加速模型收敛，因此学习率可以稍微增大
*   BN可以理解为在每个小批量里加入了噪音，以此来控制模型的复杂度


为什么需要引入BatchNorm层对数据进行规范化处理呢？

对于原始的输入数据，如果我们不加规范化的话，输入数据的分布是不可控的，每个层的数据分布都是有差异的。而且这个差异，在训练的过程中，由于经过多轮的BP算法，每一轮的BP算法都会改变相应层的参数，这一层参数的改变，也意味着这一层的输入输出也会发生变化，输入输出发生变化，数据的部分又不可控，这个时候带来的一个现象就是训练过程中，每一层的分布是不停在变化的，这对于网络的收敛是非常不利的，也正是因为这样的一个原因，才会对输入的数据进行约束。

特征缩放方法

归一化： MinMaxScaler
标准化： StandardScaler

全连接层

全连接层：连接所有的特征，及那个输出值送给分类器（比如softmax分类器）

*   将网络的输出变成一个向量： 卷积层输出的结果，一定是一个四维的特征图$(n,h,w,c)$，需要将这个四维矩阵转化为一维向量进行全连接
*   可以采用卷积代替全连接层
*   全连接层是尺度敏感的：全连接层的参数是固定的，如果输入的个数改变，那么运算的式子也会跟着改变。
*   配合使用dropout层： 因为全连接层的参数量非常大，所以使用dropout层随机丢弃一些节点


全连接层就是一个线性运算。

通常而言，一个卷积网的参数量，大部分都是占据在全连接层的，比如VGG，80%的参数都是来自最后的FC层。

权重衰退&丢弃法（dropout）

如何防止模型过拟合？
* 让模型变得简单：丢弃法
* 让权重不要太大：权重衰退（权重不要那么大，就不会学习的那么激烈）

权重衰退和dropout都是防止过拟合的手段，能够一定程度上提升模型的表现效果。

什么是范数？

非正式地说，一个向量的范数告诉我们一个向量有多大。
在线性代数中，向量范数是将向量映射到标量的函数f。

常用的范数有 L1，L2（默认 欧氏距离就是L2范数）

L1范数:它表示为向量元素的绝对值之和。
L2范数：假设n维向量x中的元素是x1,…,xn，其L2范数是向量元素平方和的平方根。

损失函数（目标函数）

损失函数：用来评估模型的预测值和真实值的不一致程度。
目标函数 = 损失函数（经验风险最小） + 正则化（结构风险最小）

L0，L1，L2正则化（范数约束/正则项/惩罚项）

L0：参数中取值为0的个数（参数的0越多，表示模型越简单）
L1：所有数的绝对值相加
L2：所有数平方相加开根号（距离）

L0是没有办法求导的，所以有了L1，L1是对L0的线性逼近。
L2是对L1的凸优化

L0、L1可以实现参数稀疏，模型稀疏的话泛化能力会更好

什么是似然？

什么是似然？我们在学习概率统计的时候经常会去区分两个概念，就是概率和似然。

*   概率通常是一个统计上的概念，某一个事件出现的频次
*   似然是在已知结果的情况下，反推产生这些结果的原因（在深度学习中这些原因就是我们要进行学习的参数）

损失函数

分类任务：交叉熵损失函数
回归任务：L1、L2、smooth L1（一般都是选择smooth L1作为回归任务的损失函数）

卷积神经网络中的设计标配

激活函数：ReLU
FC+d

LeNet

LeNet应用于一个十分类问题（手写数字识别 mnist）。

从LeNet可以看到分类任务的大概思路。

图片输入，经过（conv，pooling），在经过全连接层（FC n分类就n维），最后经过softmax，得到一个$[0,1]$的概率值。

AlexNet

2012年显卡的显存还是有限的，网络模型图中给出的两个分支，表示使用两张显卡进行分布式训练。

*   conv-relu-pooling-LRN

网络图所示，图片经过多轮卷积，$11*11,5*5,3*3,3*3,3*3$，AlexNet在设计的时候，每一个卷积之后，都会配有relu,pooling,LRN三个层。

relu 增加非线性能力
pooling 下采样，增大图像感受野，对图像进一步提取
LRN 归一化，将数据约束在一定


*   fc-rule-dropout

在经过两个fc层，后面跟着rule和dropout，因为fc层的参数量非常大，所以这里要使用dropout层进行一些参数的删除（置零）。

*   fc-softmax

最终将特征映射到一个1000维的向量上。
最终训练出来的参数在60M以上，整个模型大小在200M以上。

*   ReLU激活函数
ReLU激活函数相对于其他的激活函数，能实现一个更快的计算速度，并且在x大于0时，不会出现梯度消失这样的问题。

ReLU也成了后面我们设计卷积神经网络的一个标配。

*   Dropout层
FC+Dropout层是标配，dropout可以减少过拟合的风险，因为FC中存在过多的参数，通过dropout能够对FC的参数进行约束。

*   LRN层
后面研究发现LRN层其实没有多大作用，现在基本已经被弃用了，现在使用的最多的是BN层。

ZFNet

ZFNet对于AlexNet并没有多大的改进，只是对AlexNet进行了一些细致的调整。ZFNet的最大贡献是对卷积网络为什么有效进行了分析。

ZFNet中提出的几点结论，是非常有普适性的。

ZFNet将特征进行可视化展示，具体是如何实现呢？上图的右边是正常卷积网的一个数据流向，对于我们最终下采样拿到的一个图片，我们该如何还原成最初的图片呢？实际上如果想进行百分百的还原，这是不可能的，因为经过激活层和pooling层的时候，会对图像造成不可逆的破坏，因此这个还原只是对特征高层次的语义分析，具体是通过上采样和反卷积操作来完成的，最终得到与原始图像大小一致的特征图。

通过观察这些还原出来的特征图，作者总结出下面的结论
* 特征分层次体系结构
* 深层特征更鲁棒
* 深层特征更有区分度
* 深层特征收敛更慢

VGG

VGG

*   为了研究**网络深度**对模型准确度的影响，并采用小卷积堆叠的方式，来搭建整个网络结构
都是采用了$3*3$的小卷积。

*   参数量：138M；模型大小>500M
VGG的网络更大，对比参数量的大小和模型大小就可以知道。



上面的VGG示例图只列出了卷积的结构，实际上在卷积当中还会插入激活层和池化层。

上面列出了11层、13层、16层、19层（卷积层、FC层是需要进行参数训练的，池化层不需要训练）。

这里输入图像的大小是$224*224$，这个尺寸是对应ImageNet挑战赛图像分类任务的图像尺寸，这也是为什么我们在设计分类识别任务的时候采用$224*224$来设计和训练网络。我们想要使用ImageNet挑战赛上表现优秀的模型来进行模型迁移，那么就需要保证和训练的模型数据的一致性，所以在设计网络的时候会尽量保证尺寸为$224*224$。

VGG的特点

*   更深的网络结构，结构更加规整、简答
*   全部使用$3*3$的小型卷积核核$2*2$的最大池化层
不难发现一点，VGG的网络非常深，相比AlexNet，它的卷积是非常多的，另外可以发现这里的卷积核都是$3*3$的卷积核，没有大于$3*3$的卷积核。
小卷积核可以实现大卷积核的感受野范围，同时计算量会更小。
*   每次池化后Feature Map宽高降低一半，通道数量增加一倍
每次经过一个pooling层，channel的数量会乘2，保证提取的数量。
*   网络层数更多，结构更深，模型参数更大

VGG的意义

*   证明了更深的网络，能够提取更好的特征
*   成为后续很多网络的backbone
利用VGG来进行特征的提取，虽然VGG只在ImageNet挑战赛获得第二名，但是使用VGG提取出来的图像特征往往更有效。
这也是为什么VGG也成为后续很多网络的主干网络。

*   规范化了后续网络设计的思路
VGG也规范了后面网络的设计思路，后续的网络设计基本都是非常的规整。
基本都有一个最小的结构单元，然后在这个单元上进行堆叠。
还有就是一个默认：每次下采样过后，channel的数量也会相应的增加。

GoogLeNet/Inception

Inception结构，**在设计网络结构时，不仅强调网络的深度，也会考虑网络的宽度**。
网中网的结构，也就是Inception结构。
Inception结构在后面设计网络结构的时候也是经常会被用到的一个网络结构。
Inception提出后，Google也进行了一系列的改进，提出v2、v3..

更多的卷积：网络的宽度（channel数量）
更深的层次：网络的深度

为什么GoogleNet的网路深度很深，宽度也很宽，可最终的参数量却很小呢？主要就是有效的利用了$1*1$的卷积核。


GoogoLeNet最大的启示就是教会我们如何巧妙的利用$1*1$的卷积核。
理解为什么什么$1*1$的卷积核可以实现降维？

这个就是卷积运算本身的内容，卷积核的channel是多少，那么最后的结果是把每个channel进行相加。
也就是如果输入$28*28*192$经过一个$1*1*64$的卷积核后，尺寸会变成$28*28*3$。

GoogLeNet的特点

*   更深的网络结构，同时考虑了网络的宽度
GoogLeNet在设计的时候不仅考虑网络的深度，也考虑的网络的宽度。
*   两个LOSS层，降低过拟合风险
*   巧妙地利用$1*1$的卷积核来进行通道降维，减小计算量

关于(1*1)卷积和stride=2

1*1卷积可以减少channel的数量，也可以理解成“全连接”，因为减少channel实际上就是让channel进行了线性堆叠

stride=2不仅可以减少当前卷积层的计算量，而且可以替换了池化层，因为池化层丢弃的参数会更多。 但是每层卷积都是有参数的，这样计算量会增大不少。

从卷积角度思考，如何减少网络中的计算量？

从GoogleNet中，可以总结出下面几个结论，来减少卷积网络中的计算量。

*   小卷积核来对大卷积核进行拆分
对于$5*5$和$7*7$这样的大卷积核（不可能比7更大），最多只会使用再输入层，因为原始图片输入channel为3，那么channel为3的计算量还是很小的，但是后续的channel的可能是32、64、128，这就是非常大一个channel数量。

后面一般都是采用$3*3$或$1*1$的卷积核，不太会采用其他的大小的卷积核。像类似$1*3$和$3*1$也很少使用，只用在Inception中使用了。

*   stride=2代替pooling层
stride=2可以直接降低当前卷积层的计算量。

*   巧妙地利用$1*1$的卷积核来进行降维
$1*1$卷积核可以帮助减少channel的数量。



我们在设计卷积的时候，要压缩网络的时候，就可以从上面的点来进行考虑。

关于深层网络梯度爆炸和梯度消失的理解

BP算法求梯度，是一个一个导数相乘的 x*x*x*...  这里可以抽象为 x^n
如果 x>1 n->∞， 那么 x->∞  梯度爆炸
如果 x<1 n->∞， 那么 x->0  梯度消失

ResNet

ResNet引入跳连结构来防止梯度消失问题，可以进一步加大网络的深度。

ResNet也是后面许多网络结构作为主干网络进行特征提取的首选。

VGG最多有19层，ResNet可以达到上百层。为什么ResNet的网络结构可以这么深呢？因为引入了跳连的结构。

这种跳连结构直接将输入层的特征传递到输出层，然后和卷积之后的结果进行相加，最后可以得到一个结合了原始输入特征的输出特征。

在网络加入这样跳连的线，实际上并没有增加参数量，虽然网络结构发生了变化，但是网络的参数量是没有发生变化的，这也是跳连结构的一个优点。

ResNet在设计的时候同样采用卷积堆叠的方式，但是不再是串联，而是这种带有跳连的结构来作为核心单元。然后网络使用这样的单元来进行堆叠。

输入使用$7*7$的卷积核，由于初始channel为3，问题不大。可以发现后面深层一点的卷积核都是$1*1$和$3*3$的。

ResNet在最后分类的时候，采用的不是FC，而是average pool。VGG的80%的参数集中在FC层，使用一个池化层来替换掉FC层，会减少很多的参数量，因为池化层本身是没有参数的。

对于像50、101、152层的ResNet，其中还采用了$1*1$的卷积核来减少计算量，整个还是可以接受的。

上图有给出网络需要的计算量FLOPs。



还有就是ResNet对缓存有要求，如下图，从A->C不是直接串联下来的，而是需要把A先进行缓存，如果feature map比较大或channel比较多，对机器的缓存就有要求。

ResNet的设计点

如下图，输入的特征为x，输出特征为$H(x)=f(x)+x$
也就是，即使没有$f(x)$，那么$H(x)$也有x作为保底。


* 核心单元简单堆叠
* 跳连结构解决网络梯度消失问题
* average pooling层代替FC层
* BN层加快网络训练速度和收敛时的稳定性
* 加大网络深度，提高模型特征提取能力

卷积中的attention

attention实际上就是一种加权的思想。