深度学习概念

神经元：函数

神经网络（模型）的本质：函数网络

深度学习的本质：反向传播求偏导

梯度：向量（有大小和方向），函数在该点的方向导数取得最大值的方向，在该点处梯度的方向为函数变化最快的方向

梯度下降：梯度的负方向是函数下降最快的方向

收敛：取得最小值

权重：输入进入神经元前乘的数

偏置：乘完权重加的数

激活函数：将线性输入转化为非线性输出

全连接层：该层的每个神经元与前一层的所有神经元进行全连接

学习率：损失函数下降到最小值的速率，大了容易错过最佳方案甚至不收敛，小了会使网络训练的时间过长

batch与epoch

批量归一化：把输入值拉回到正态分布

原因：1、输入的数据与输出的数据的分布不一致，导致模型训练困难（因为模型学的是数据的分布）

　　　2、使输出逐渐靠近激活函数梯度较小的地方，造成梯度消失。

卷积神经网络：广泛应用于图像数据，目的是为了减少参数数量，有多少个卷积核卷积之后就有多少层

滤波器：在CNN中与输入图像相乘的部分

池化：对矩阵进行压缩，减少一些参数，防止过拟合（参数多了就容易过拟合），max操作将原来的4*4的矩阵转化成2*2

数据增强：提高数据的质量，如旋转增亮

feather map 每一个通道就是一个feather map

预测的值是连续的是回归问题，预测的值是离散的是分类问题

线性回归：基于x预测y并且x与y符合线性关系

卷积：用于特征提取，全连接：用于分类

正则化：以增大训练误差为代价来减少测试误差，换句话说就是防止过拟合

L2正则化：在损失函数后加一个L2范数，所以说正则化是以增大误差为代价

L2范数：其实就是欧氏距离，别名：权重衰减

L1范数：各元素绝对值之和，可进行特征选择，即让特征系数为0

信息熵：衡量系统的不确定性。它的大小为消除系统不确定性所付出最小努力

交叉熵：衡量在给定真实分布的情况下，用非真实分布所指定的策略消除系统中的不确定性所付出的努力

$p_k$ 表示真实分布， $q_k$ 表示非真实分布